卖姑娘的小火柴


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

  • 公益

  • 搜索

hdfs

发表于 2018-10-28 | 分类于 hadoop
Namenode EditLog:对于 任何对文件系统元数据产生修改 的操作, Namenode 都会使用一种称为 EditLog 的事务日志记录下来。 FsImage:整个文件系统的命名空间 ,包括数据块到文件的映射、文件的属性等,都存储在一个称为 FsImage 的文件中 DataNodeDatanode 将 HDFS 数据以文件的形式存储在本地的文件系统中,它并不知道有关 HDFS 文件 ...
阅读全文 »

kafka

发表于 2018-10-28 | 分类于 hadoop
一个主题topic有多个分区。一个消费者可以消费多个 分区。但是一个分区只能有一个消费者。当以下事件发生时,Kafka将会进行一次分区分配: 同一个ConsumerGroup内新增消费者; 消费者离开当前所属的ConsumerGroup,包括shutsdown或crashes; 订阅的主题新增分区; 如果你的分区数是N,那么最好线程数也保持为N,这样通常能够达到最大的吞吐量。超过N的配置只是浪 ...
阅读全文 »

spark

发表于 2018-10-28 | 分类于 hadoop
来自:美团点评 spark性能优化指南-基础篇美团点评 spark性能优化指南-高级篇 spark本身并没有提供分布式文件系统,因此spark的分析大多依赖于Hadoop的分布式文件系统HDFS.Hadoop的Mapreduce与spark都可以进行数据计算,而相比于Mapreduce,spark的速度更快并且提供的功能更加丰富.spark在没有shuffle时比hadoop快,因为不用中间落地, ...
阅读全文 »

azkaban

发表于 2018-10-19 | 分类于 hadoop
出错1、JCE报错 12345678910111213141516171819202122232425262728293031323334353637383940414243444546testV1_1 FAILED java.lang.RuntimeException: java.lang.RuntimeException: org.jasypt.exceptions.Encryption ...
阅读全文 »

hive出错

发表于 2018-10-19 | 分类于 hadoop
易错hive cli 有tab补全的功能,因此,如果hql里有tab时,会出现Display all 479 possibilities? (y or n)的询问。left/right join on where时注意条件放在on之后还是where之后,结果会不同。 读orc格式数据hive-0.11版本中的使用方法为:hive --orcfiledump <location-of-orc ...
阅读全文 »

hive压缩

发表于 2018-10-19 | 分类于 hadoop
set hive.exec.compress.intermediate=true; 中间数据map压缩,不影响最终结果。但是job中间数据输出要写在硬盘并通过网络传输到reduce,传送数据量变小,因为shuffle sort(混洗排序)数据被压缩了。set mapred.map.output.compression.codec=org.apache.hadoop.io.compress.Snap ...
阅读全文 »

机器学习

发表于 2018-10-19 | 分类于 机器学习
1、线性回归和逻辑回归在计算之前先对数据处理,把无关、想似的属性去除,效果会好。 2、朴素贝叶斯有个强假设,假设每个属性都是独立的,不相关的。 3、KNN算法当输入数据维度很高时(也可以理解成属性很多),效果会变差。主要是因为输入变量的数量对于算法性能有着很大的负面影响。 4、支持向量机可能是最受欢迎、讨论最为广泛的机器学习算法之一。 5、如果用方差较高的算法(如决策树)能够获得较好的结果,那么通 ...
阅读全文 »

yarn

发表于 2018-09-19 | 分类于 hadoop
应用提交过程分析: 客户端程序向ResourceManager提交应用并请求一个ApplicationMaster实例 ResourceManager找到可以运行一个Container的NodeManager,并在这个Container中启动ApplicationMaster实例 ApplicationMaster向ResourceManager进行注册,注册之后客户端就可以查询Resource ...
阅读全文 »

hadoop知识记录

发表于 2018-09-19 | 分类于 hadoop
当一些查询翻译到MapReduce任务时,往往会产生多个Stage,而这些串联的Stage又依赖于底层文件系统(如HDFS)来存储每一个Stage的输出结果。Hadoop 包含以下两个主要组件:Hadoop Distributed File System (HDFS) 和一个分布式计算引擎,该引擎支持以 MapReduce 作业的形式实现和运行程序。新版本: 新旧版本:主要是把Jobtracker ...
阅读全文 »

hive map、reduce计算

发表于 2018-09-19 | 分类于 hadoop
map个数计算dfs.block.sizesplitsize= Math.max(minSize, Math.min(goalSize, blockSize)),通常这个值=blockSize,输入的文件较小,文件字节数小于blocksize时,splitsize=输入文件字节数之和。 gzip不支持切片,因此一个gzip压缩文件不能通过切片 由多个map执行,只能是有多少个文件,对应有多少个ma ...
阅读全文 »
<i class="fa fa-angle-left"></i>1234…13<i class="fa fa-angle-right"></i>
Lily

Lily

127 日志
17 分类
75 标签
友情链接
  • wise wong
  • li fei
© 2020 Lily