Hadoop综合大作业
本次作业的要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339
Hadoop综合大作业 要求:
1.将爬虫大作业产生的csv文件上传到HDFS
2.对CSV文件进行预处理生成无标题文本文件
3.把hdfs中的文本文件最终导入到数据仓库Hive中
4.在Hive中查看并分析数据
5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)
数据预处理:
对爬取的CSV文件进行处理和清洗,删除空白和没用的数据
清理重复的数据和无效数据
大数据分析:
1.将爬虫大作业产生的csv文件上传到HDFS
先用命令创建文件夹,并且将CSV文件复制粘贴到新建的文件夹中
查看文件前5条信息,检查是否上传成功
2.对CSV文件进行预处理生成无标题文本文件
因为我爬取数据时并没有设置标题,前面对数据进行过处理,所以可以直接跳过这步。
3.把hdfs中的文本文件最终导入到数据仓库Hive中
想要把数据导入到数据库Hive中,首先要通过命令把服务全部开启
然后把CSV文件导入到数据仓库Hive中,并在Hive中查看并分析数据
查看数据表是否正常
4.用Hive对爬虫大作业产生的进行数据分析
5分评分数
4.5分评分数
4分评分数
3.5分评分数
评分小于3分的数量
这次爬取的数据一共11604条,其中给满分好评的有6099条,占总数的52.7%;其中4.5分的有1982条,占17.1%;其中4分的有1996,占17.2%,给3分以下的仅仅只有3.8%,去除一些恶意的差评,将小于3分的人数与5分人数抵消,给满分的用户还有一半。
如果以4分以上作为好评,二这部电影的好评数高达87%,按照现今的电影情况,能有如此高的好评确实不多。
这足以说明这部电影口碑极好,深受喜欢。
这是评论用户最多的前二十个城市,前面实际个都是国内发展得特别好的一线城市。
这不仅从侧面反映出这些城市的人流量高,生活水平高,同时也说明了电影在这些城市的宣传力度。
这是5分满分好评数量最多的前二十个城市。
与前面评论数最多的城市相比较,变化并不明显,总体来前二十城市的满分评分也接近50%以上。
评论数最多的那几天都是电影的热映期,用户对于该电影的关注度还是挺不错的,而且愿意对这部电影提出自己的意见。
原文地址:https://www.cnblogs.com/zl1216/p/11037378.html
- Python入门教程之安装MyEclipse插件和安装Python环境
- AutoFlowLayout-多功能流式布局与网格布局控件
- RBAC新解:基于资源的权限管理(Resource-Based Access Control)
- 基于开源项目搭建属于自己的技术堆栈
- Redis整合Spring项目搭建实例
- SpringMVC+Hibernate +MySql+ EasyUI实现POI导出Excel(二)
- Nginx+Tomcat+Redis负载均衡Session共享实现超级简单(CentOS6.9系统 Java版本)
- Apache Ignite——新一代数据库缓存系统
- 微信JSSDK接入Java版--步骤及问题处理和解决
- 微信企业号回调模式配置讲解 Java Servlet+Struts2版本 echostr校验失败解决
- Android Material Design系列之RecyclerView和CardView
- 在Linux安装ASP.Net Core的运行时(Runtime)
- 使用xUnit为.net core程序进行单元测试(下1)
- Otto开发初探——微服务依赖管理新利器
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 又被逼着优化代码,这次我干掉了出入参 Log日志
- C#委托进阶,事件和委托,一次就看明白,附源码
- 树莓派爬虫多平台热搜榜轮播展示
- Scrapy 和 Pyppeteer 更优雅的对接方案
- 京喜前端自动化测试之路(小程序篇)
- JavaScript 混淆与逆向必读之 AST 节点类型名词基础
- 手把手教你如何实现大量图片的自适应图片页面的排列
- 那些你可能不知道的浏览器奇技淫巧
- 那些你可能不知道的 windows 奇技淫巧
- LeetCode-5.最长回文子串 中心扩散法
- 再谈备份微博
- Scala中的IO操作及ArrayBuffer线程安全问题
- 关于数字雨特效的学习
- linux 之mysql——约束(constraint)详解
- NFS+NIS+Autofs 实现用户的集中化管理