hive-set设置总结
直接set命令可以看到所有变量值。set单个参数,可以看见这个参数的值。
常用hiveconfHive相关的配置属性总结set hive.cli.print.current.db=true; 在cli hive提示符后显示当前数据库。set hive.cli.print.header=true; 显示表头。select时会显示对应字段。set hive.mapred.mode=strict; 防止
...
Flink-StreamingFileSink自定义Watermark+DateTimeBucket实现精准落仓
发表于
|
分类于
hadoop
简介flink自带的DateTimeBucket按照process time执行时间来落分区目录。但有很多缺点:1、数据延迟很常见 2、或者任务出问题暂停后再启动如果恰好跨分区,数据出问题的会更多。因此很多时候我们希望的是 event time,本文的办法是flink自带的DateTimeBucketAssigner定义了数据保存的hdfs时间路径,选用的是currentProcessingTim
...
Flink窗口函数ReduceFunction、AggregateFunction、ProcessWindowFunction
发表于
|
分类于
hadoop
全文转自:https://blog.csdn.net/wangpei1949/article/details/102986845
Window Function在窗口触发后,负责对窗口内的元素进行计算。Window Function分为两类: 增量聚合和全量聚合。
增量聚合: 窗口不维护原始数据,只维护中间结果,每次基于中间结果和增量数据进行聚合。如: ReduceFunction、Aggrega
...
Flink-Watermark
发表于
|
分类于
hadoop
官网指路https://ci.apache.org/projects/flink/flink-docs-release-1.10/zh/dev/event_timestamps_watermarks.html
前言!!! 经实际使用发现任务刚刚启动时watermark没有调用extractTimestamp方法,因此会是初始值。。。。
Flink中测量进度使用的是水印(Watermark)in e
...
Flink-clickhouse
发表于
|
分类于
hadoop
demo使用flink的JDBCAppendTableSink,和写入mysql方式都类似。1、mvn中引入jar
1234567891011121314151617<properties> <flink.version>1.10.0</flink.version> <scala.version>2.11.12</sca
...
Flink读取kafka数据并以parquet格式写入HDFS
发表于
|
分类于
hadoop
!!如果是flink 1.11建议尝试flink-sql的直接写入hive的方式。对生成success文件等都有封装。官网 文章
Flink目前对于外部Exactly-Once写支持提供了两种的sink,一个是Kafka-Sink,另一个是Hdfs-Sink,这两种sink实现的Exactly-Once都是基于Flink checkpoint提供的hook来实现的两阶段提交模式来保证的。
1、Fl
...