Hadoop综合大作业

时间:2019-06-17
本文章向大家介绍Hadoop综合大作业,主要包括Hadoop综合大作业使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

爬虫综合大作业

本次作业的要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339

引言

本次作业分为四部分,是在《爬虫大作业》与《Hadoop环境搭建》的基础上进行的,在《爬虫大作业》中,我主要在已经搭建好了Hadoop、MySQL、MapReduce、HBASE、hive的Linux虚拟机中对中国传媒大学南广学院的新闻信息进行的数据爬取,最终得到的数据存在一个名为cucn.csv中。本次作业的任务主要有以下四点:

1.对csv文件进行预处理生成,utf-8编码的文件

2.将爬虫大作业产生的csv文件上传到HDFS,再一次对csv文件进行处理,生成无标题文本文件

3.把hdfs中的文本文件最终导入到数据仓库Hive中

4. 用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)

过程

1、将爬虫大作业产生的csv文件上传到HDFS,再一次对csv文件进行处理,生成无标题文本文件,结果如下图所示:

2、其次,我们把cucn.csv文件放到下载这个文件夹中,并使用命令把date.csv文件拷贝到我们刚刚所创建的文件夹中,具体步骤如下:

把date.csv文件拷到刚刚所创建的文件夹中,如下图所示:

3、对CSV文件进行预处理生成无标题文本文件,并且对数据进行预处理字段并且转化为无标题文本文件,如下图所示:

4、接着,启动hadoop并jps,如下图所示:

5、将爬虫大作业产生的csv文件上传到HDFS,再一次对csv文件进行处理,生成无标题文本文件,如下图所示:

6、启动MySQL SERVICE,启动Hive,把hdfs中的文本文件最终导入到数据仓库Hive中,如下图所示:

7、创建数据库lihaochun,如下图所示:

8、 创建表date_065并把hdfs中/bigdatacase/dataset/目录下的数据加载到表中,如下图所示:

9,用select语句查看前10条数据,如下图所示:

分析

对于王者荣耀100多个英雄定位进行分析,对于功能型英雄,包括“控制”能力、“解控”能力、“续航”水平、“消耗”能力进行词条分析,语句与结果截图如下:

结果可见,消耗型英雄法师位居多,射手其次,续航能力也是法师居多,可见在一场战斗中法师占据着非常重要的位置。而廉颇、妲己、庄周、白起、狄仁杰、花木兰、白起、橘右京、鬼谷子则拥有强大的控制或解控制能力,适合多跟团。

针对于英雄的出装方案,搜索装备关键字,则输出该经常出此装备的英雄,如下图所示:

由此可见,对于刺客型法师,噬神之术是一件不可少的装备之一,而暴力中单往往会出秘法鞋替代CD鞋。红莲可以为坦克提供不少的防御和输出。

匹配“全输出”关键字和“秒杀”与“爆发”关键字,则可以输出高爆发英雄名单,如下图所示:

可见,赵云、李白、铠、阿珂、元歌、司马懿、典韦、达摩是常见的高爆发刺客,射手则为后裔、虞姬和孙尚香等排位常见英雄,而法师位和射手一般都会选择全输出装,妲己作为一个后期英雄,具有高爆发的伤害与控制技能,后期发挥起的作用往往能决定一场战斗的胜败。

适合游走型的英雄:姜子牙作为一个辅助兼法师,具有不凡的伤害和减速技能,适合参团。兰陵王和守约前期较为强势,适合清完野配合妲己辅助上中路抓人阻止法师射手发育。

接下来,分析官方给出的英雄克制与被克制关系的排序,sql语句与查询结果如下图所示:

官方给出的数据是,花木兰作为一个上单或打野被克制的频数是最多的,其次是貂蝉、兰陵王和张良。貂蝉作为一个比较秀的法师,如果遇到对面很多的控制变束手无策,而张良张团战中大招则很容易被打断。兰陵王如果遇到妲己、小乔或者王昭君等法师配合金身和控制技能很容易被反杀。

 阿珂最为克制其他英雄的频数最多的英雄,在排位上经常被禁。阿轲是强势英雄,一直出场率都非常的高,而且伤害,生存能力也都明显有所增加,有其它的被动,百分百的暴击,遇见脆皮简直可以直接秒,而且敌军遇见荆轲基本上都要对个刚,跑是不可能了,越跑荆轲伤害越高,甚至可以直接秒杀!王昭君和兰陵王也是因为有高控制和高输出的英雄,基本每一场战斗都随处可见。

总结

通过学习本学期的大数据课程,学习并掌握了以下几项技能:

1、python 3编程基础;

2、爬虫技术与反爬虫技术的正确理解;

2、对于网上爬下来的数据进行数据清洗和词频分析;

3、用Linux虚拟机搭建大数据Hadoop平台并安装生态环境MySQL、MapReduce、HBASE、hive;

4、HDFS文件分布式系统的使用以及使用Hive和mysql对数据进行分析统计;

5、python 爬虫技术的技术原理与正确用途,源于数据,用于生活。

感谢指导老师的默默付出与指导!让我们懂得了如何利用数据分析出于兴趣相关、与生活相关的信息,不管是游戏也好,电影音乐也好,在如今都离不开大数据时代,懂得利用大数据得出想要的结论可能会少走很多弯路。

原文地址:https://www.cnblogs.com/rglhc/p/11038798.html