卖姑娘的小火柴


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

  • 公益

  • 搜索

hive笔记

置顶 | 发表于 2019-04-19 | 分类于 hadoop
阅读全文 »

hive-set设置总结

置顶 | 发表于 2018-10-19 | 分类于 hadoop
直接set命令可以看到所有变量值。set单个参数,可以看见这个参数的值。 常用hiveconfHive相关的配置属性总结set hive.cli.print.current.db=true; 在cli hive提示符后显示当前数据库。set hive.cli.print.header=true; 显示表头。select时会显示对应字段。set hive.mapred.mode=strict; 防止 ...
阅读全文 »

hive小文件问题

置顶 | 发表于 2018-10-19 | 分类于 hadoop
有多少个reducer(mapper)输出就会生成多少个输出文件,根据shuffle/sort的原理,每个文件按照某个值进行shuffle后的结果。 小文件带来的问题HDFS的文件元信息,包括位置、大小、分块信息等,都是保存在NameNode的内存中的。每个对象大约占用150个字节,因此一千万个文件及分块就会占用约3G的内存空间,一旦接近这个量级,NameNode的性能就会开始下降了。 此外,HD ...
阅读全文 »

hive数据倾斜

置顶 | 发表于 2018-10-19 | 分类于 hadoop
分析导致数据倾斜的数据:https://blog.csdn.net/bitcarmanlee/article/details/51694101https://blog.csdn.net/wisgood/article/details/77063606 group by数据倾斜倾斜原因:select count(distinct name) from user时 使用distinct会将所有的nam ...
阅读全文 »

Flink-StreamingFileSink自定义Watermark+DateTimeBucket实现精准落仓

发表于 2020-09-11 | 分类于 hadoop
简介flink自带的DateTimeBucket按照process time执行时间来落分区目录。但有很多缺点:1、数据延迟很常见 2、或者任务出问题暂停后再启动如果恰好跨分区,数据出问题的会更多。因此很多时候我们希望的是 event time,本文的办法是flink自带的DateTimeBucketAssigner定义了数据保存的hdfs时间路径,选用的是currentProcessingTim ...
阅读全文 »

Flink窗口函数ReduceFunction、AggregateFunction、ProcessWindowFunction

发表于 2020-09-09 | 分类于 hadoop
全文转自:https://blog.csdn.net/wangpei1949/article/details/102986845 Window Function在窗口触发后,负责对窗口内的元素进行计算。Window Function分为两类: 增量聚合和全量聚合。 增量聚合: 窗口不维护原始数据,只维护中间结果,每次基于中间结果和增量数据进行聚合。如: ReduceFunction、Aggrega ...
阅读全文 »

Flink-Watermark

发表于 2020-05-11 | 分类于 hadoop
官网指路https://ci.apache.org/projects/flink/flink-docs-release-1.10/zh/dev/event_timestamps_watermarks.html 前言!!! 经实际使用发现任务刚刚启动时watermark没有调用extractTimestamp方法,因此会是初始值。。。。 Flink中测量进度使用的是水印(Watermark)in e ...
阅读全文 »

Flink-clickhouse

发表于 2020-05-11 | 分类于 hadoop
demo使用flink的JDBCAppendTableSink,和写入mysql方式都类似。1、mvn中引入jar 1234567891011121314151617<properties> <flink.version>1.10.0</flink.version> <scala.version>2.11.12</sca ...
阅读全文 »

Flink-窗口

发表于 2020-05-11 | 分类于 hadoop
12345678910111213141516171819202122Keyed Windowsstream .keyBy(...) <- keyed versus non-keyed windows .window(...) <- required: "assigner" ...
阅读全文 »

Flink读取kafka数据并以parquet格式写入HDFS

发表于 2020-05-11 | 分类于 hadoop
!!如果是flink 1.11建议尝试flink-sql的直接写入hive的方式。对生成success文件等都有封装。官网 文章 Flink目前对于外部Exactly-Once写支持提供了两种的sink,一个是Kafka-Sink,另一个是Hdfs-Sink,这两种sink实现的Exactly-Once都是基于Flink checkpoint提供的hook来实现的两阶段提交模式来保证的。 1、Fl ...
阅读全文 »
12…13<i class="fa fa-angle-right"></i>
Lily

Lily

127 日志
17 分类
75 标签
友情链接
  • wise wong
  • li fei
© 2020 Lily