hadoop入门:第十章hadoop工具

时间:2022-05-06
本文章向大家介绍hadoop入门:第十章hadoop工具,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

问题导读

1.hadoop有哪些工具? 2.hadoop流的作用是什么? 3.hadoop集群负载如何模拟? 4.hadoop数据提取和分析工具是哪个? 1.Hadoop 流 文档简介 Hadoop的数据流是自带的Hadoop发行版的实用程序。这个程序允许你创建和运行可执行的Map/Reduce jobs或则脚本,作为mapper或则reducer。举例:

[Bash shell] 纯文本查看 复制代码

?

hadoop jar hadoop-streaming-2.7.2.jar 
  -input myInputDirs 
  -output myOutputDir 
  -mapper /bin/cat 
  -reducer /usr/bin/wc

英文网址 http://hadoop.apache.org/docs/r2.7.2/hadoop-streaming/HadoopStreaming.html 2.Hadoop Archives 指南 文档简介 hadoop Archives 是特殊格式的archives。 一个Hadoop archive 映射一个文件系统目录.hadoop archive 是一个*.har。一个hadoop Archives 目录包括元数据(以 _index 和_masterindex形式)和数据 (part-*)文件。这个_index 文件包含文件的名字作为归档的一部分和部分文件的位置 英文网址 http://hadoop.apache.org/docs/r2.7.2/hadoop-archives/HadoopArchives.html 3.DistCp指南 文档简介 DistCp Version 2 (分布式 copy) 是一个工具用于大的 集群内和集群间的复制。它用mapreduce来影响它的分布,错误处理和恢复,和报告。它扩展了文件列表和目录输入map 的任务,每个文件分区在资源列表指定。本文档的目的是描述新distcp设计 英文文档 http://hadoop.apache.org/docs/r2.7.2/hadoop-distcp/DistCp.html 4.Gridmix 文档简介 GridMix是Hadoop集群的基准。为运行 GridMix,你需要一个MapReduce job 跟踪描述给定集群的混合job 英文文档 http://hadoop.apache.org/docs/r2.7.2/hadoop-gridmix/GridMix.html 5.Rumen 文档简介 Rumen是Apache的Hadoop构建的数据提取和分析工具 英文文档 http://hadoop.apache.org/docs/r2.7.2/hadoop-rumen/Rumen.html 6.Yarn调度负载模拟器(SLS) 文档简介 Yarn 调度器是大家都感兴趣的地方,有不同的实现,例如, Fifo, Capacity 和Fair schedulers.与此同时,一些优化也作出改善不同场景和工作负载调度程序的性能。每个调度器算法有其自身的功能集,驱动调度收到许多影响,比如 fairness, capacity 能力, 资源可用性, 等.这非常重要评估调度算法是好的,在我们部署生产集群之前。一个真正的集群评估始终是时间和成本消耗,但是比较难以找到一个足够大的集群,因此,模拟器可以预测一个调度器算法对于一些特定的工作负载将会很有用。 英文文档 http://hadoop.apache.org/docs/r2.7.2/hadoop-sls/SchedulerLoadSimulator.html