hdfs

发表于 2018-10-28 | 分类于 hadoop

Namenode EditLog:对于任何对文件系统元数据产生修改的操作， Namenode 都会使用一种称为 EditLog 的事务日志记录下来。 FsImage:整个文件系统的命名空间，包括数据块到文件的映射、文件的属性等，都存储在一个称为 FsImage 的文件中 DataNodeDatanode 将 HDFS 数据以文件的形式存储在本地的文件系统中，它并不知道有关 HDFS 文件 ...

阅读全文 »

kafka

发表于 2018-10-28 | 分类于 hadoop

一个主题topic有多个分区。一个消费者可以消费多个分区。但是一个分区只能有一个消费者。当以下事件发生时，Kafka将会进行一次分区分配：同一个ConsumerGroup内新增消费者；消费者离开当前所属的ConsumerGroup，包括shutsdown或crashes；订阅的主题新增分区；如果你的分区数是N，那么最好线程数也保持为N，这样通常能够达到最大的吞吐量。超过N的配置只是浪 ...

阅读全文 »

spark

发表于 2018-10-28 | 分类于 hadoop

来自：美团点评 spark性能优化指南-基础篇美团点评 spark性能优化指南-高级篇 spark本身并没有提供分布式文件系统，因此spark的分析大多依赖于Hadoop的分布式文件系统HDFS.Hadoop的Mapreduce与spark都可以进行数据计算，而相比于Mapreduce，spark的速度更快并且提供的功能更加丰富.spark在没有shuffle时比hadoop快，因为不用中间落地， ...

阅读全文 »

azkaban

发表于 2018-10-19 | 分类于 hadoop

出错1、JCE报错 12345678910111213141516171819202122232425262728293031323334353637383940414243444546testV1_1 FAILED java.lang.RuntimeException: java.lang.RuntimeException: org.jasypt.exceptions.Encryption ...

阅读全文 »

hive出错

发表于 2018-10-19 | 分类于 hadoop

易错hive cli 有tab补全的功能，因此，如果hql里有tab时，会出现Display all 479 possibilities? (y or n)的询问。left/right join on where时注意条件放在on之后还是where之后，结果会不同。读orc格式数据hive-0.11版本中的使用方法为：hive --orcfiledump <location-of-orc ...

阅读全文 »

hive压缩

发表于 2018-10-19 | 分类于 hadoop

set hive.exec.compress.intermediate=true; 中间数据map压缩，不影响最终结果。但是job中间数据输出要写在硬盘并通过网络传输到reduce，传送数据量变小，因为shuffle sort（混洗排序）数据被压缩了。set mapred.map.output.compression.codec=org.apache.hadoop.io.compress.Snap ...

阅读全文 »

机器学习

发表于 2018-10-19 | 分类于机器学习

1、线性回归和逻辑回归在计算之前先对数据处理，把无关、想似的属性去除，效果会好。 2、朴素贝叶斯有个强假设，假设每个属性都是独立的，不相关的。 3、KNN算法当输入数据维度很高时（也可以理解成属性很多），效果会变差。主要是因为输入变量的数量对于算法性能有着很大的负面影响。 4、支持向量机可能是最受欢迎、讨论最为广泛的机器学习算法之一。 5、如果用方差较高的算法（如决策树）能够获得较好的结果，那么通 ...

阅读全文 »

yarn

发表于 2018-09-19 | 分类于 hadoop

应用提交过程分析：客户端程序向ResourceManager提交应用并请求一个ApplicationMaster实例 ResourceManager找到可以运行一个Container的NodeManager，并在这个Container中启动ApplicationMaster实例 ApplicationMaster向ResourceManager进行注册，注册之后客户端就可以查询Resource ...

阅读全文 »

hadoop知识记录

发表于 2018-09-19 | 分类于 hadoop

当一些查询翻译到MapReduce任务时，往往会产生多个Stage，而这些串联的Stage又依赖于底层文件系统（如HDFS）来存储每一个Stage的输出结果。Hadoop 包含以下两个主要组件：Hadoop Distributed File System (HDFS) 和一个分布式计算引擎，该引擎支持以 MapReduce 作业的形式实现和运行程序。新版本：新旧版本：主要是把Jobtracker ...

阅读全文 »

hive map、reduce计算

发表于 2018-09-19 | 分类于 hadoop

map个数计算dfs.block.sizesplitsize= Math.max(minSize, Math.min(goalSize, blockSize)),通常这个值=blockSize，输入的文件较小，文件字节数小于blocksize时，splitsize=输入文件字节数之和。 gzip不支持切片，因此一个gzip压缩文件不能通过切片由多个map执行，只能是有多少个文件，对应有多少个ma ...

阅读全文 »