hive笔记

置顶 | 发表于 2019-04-19 | 分类于 hadoop

hive-set设置总结

置顶 | 发表于 2018-10-19 | 分类于 hadoop

直接set命令可以看到所有变量值。set单个参数，可以看见这个参数的值。常用hiveconfHive相关的配置属性总结set hive.cli.print.current.db=true; 在cli hive提示符后显示当前数据库。set hive.cli.print.header=true; 显示表头。select时会显示对应字段。set hive.mapred.mode=strict; 防止 ...

阅读全文 »

hive小文件问题

置顶 | 发表于 2018-10-19 | 分类于 hadoop

有多少个reducer（mapper）输出就会生成多少个输出文件，根据shuffle/sort的原理，每个文件按照某个值进行shuffle后的结果。小文件带来的问题HDFS的文件元信息，包括位置、大小、分块信息等，都是保存在NameNode的内存中的。每个对象大约占用150个字节，因此一千万个文件及分块就会占用约3G的内存空间，一旦接近这个量级，NameNode的性能就会开始下降了。此外，HD ...

阅读全文 »

hive数据倾斜

置顶 | 发表于 2018-10-19 | 分类于 hadoop

分析导致数据倾斜的数据：https://blog.csdn.net/bitcarmanlee/article/details/51694101https://blog.csdn.net/wisgood/article/details/77063606 group by数据倾斜倾斜原因：select count(distinct name) from user时使用distinct会将所有的nam ...

阅读全文 »

Flink-StreamingFileSink自定义Watermark+DateTimeBucket实现精准落仓

发表于 2020-09-11 | 分类于 hadoop

简介flink自带的DateTimeBucket按照process time执行时间来落分区目录。但有很多缺点：1、数据延迟很常见 2、或者任务出问题暂停后再启动如果恰好跨分区，数据出问题的会更多。因此很多时候我们希望的是 event time，本文的办法是flink自带的DateTimeBucketAssigner定义了数据保存的hdfs时间路径,选用的是currentProcessingTim ...

阅读全文 »

Flink窗口函数ReduceFunction、AggregateFunction、ProcessWindowFunction

发表于 2020-09-09 | 分类于 hadoop

全文转自：https://blog.csdn.net/wangpei1949/article/details/102986845 Window Function在窗口触发后，负责对窗口内的元素进行计算。Window Function分为两类: 增量聚合和全量聚合。增量聚合: 窗口不维护原始数据，只维护中间结果，每次基于中间结果和增量数据进行聚合。如: ReduceFunction、Aggrega ...

阅读全文 »

Flink-Watermark

发表于 2020-05-11 | 分类于 hadoop

官网指路https://ci.apache.org/projects/flink/flink-docs-release-1.10/zh/dev/event_timestamps_watermarks.html 前言!!! 经实际使用发现任务刚刚启动时watermark没有调用extractTimestamp方法，因此会是初始值。。。。 Flink中测量进度使用的是水印（Watermark）in e ...

阅读全文 »

Flink-clickhouse

发表于 2020-05-11 | 分类于 hadoop

demo使用flink的JDBCAppendTableSink,和写入mysql方式都类似。1、mvn中引入jar 1234567891011121314151617<properties> <flink.version>1.10.0</flink.version> <scala.version>2.11.12</sca ...

阅读全文 »

Flink-窗口

发表于 2020-05-11 | 分类于 hadoop

12345678910111213141516171819202122Keyed Windowsstream .keyBy(...) <- keyed versus non-keyed windows .window(...) <- required: "assigner" ...

阅读全文 »

Flink读取kafka数据并以parquet格式写入HDFS

发表于 2020-05-11 | 分类于 hadoop

！！如果是flink 1.11建议尝试flink-sql的直接写入hive的方式。对生成success文件等都有封装。官网文章 Flink目前对于外部Exactly-Once写支持提供了两种的sink，一个是Kafka-Sink，另一个是Hdfs-Sink，这两种sink实现的Exactly-Once都是基于Flink checkpoint提供的hook来实现的两阶段提交模式来保证的。 1、Fl ...

阅读全文 »