爬下几万条数据,聊聊淘宝上的飞机杯
时间:2022-05-07
本文章向大家介绍爬下几万条数据,聊聊淘宝上的飞机杯,主要内容包括数据抓取、数据解读、基本概念、基础应用、原理机制和需要注意的事项等,并结合实例形式分析了其使用技巧,希望通过本文能帮助到大家理解应用这部分内容。
温馨提示,本文某些内容可能会引起不适
目标:爬取淘宝上关键词为“飞机杯”的商品数据,和销量前十的所有评论。
工具:Python Scrapy 爬数据,Excel + World Cloud 分析数据
数据抓取
简单找出翻页方法,数据都藏在这里
https://s.taobao.com/search?data-key=s&data-value=44&ajax=true&_ksTS=1504329067199_977&callback=jsonp978&q=%E9%A3%9E%E6%9C%BA%E6%9D%AF&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170902&bcoffset=4&p4ppushleft=%2C48
https://s.taobao.com/search?data-key=s&data-value=88&ajax=true&_ksTS=1504329110124_1174&callback=jsonp1175&q=%E9%A3%9E%E6%9C%BA%E6%9D%AF&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170902&bcoffset=4&p4ppushleft=%2C48&s=44
https://s.taobao.com/search?data-key=s&data-value=132&ajax=true&_ksTS=1504329292131_1421&callback=jsonp1422&q=%E9%A3%9E%E6%9C%BA%E6%9D%AF&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170902&bcoffset=4&p4ppushleft=%2C48&s=88
做好相应的应对措施就好了,不会的可以看看之前的 爬虫三步走(一)获取源码
数据解读
在进行简单数据处理后,看看发现了什么?
竟然在10-20元有这么多商品,哇,难以想象。
你平时买多少的?
我们看看销量
看来大多数飞机杯销量都不大好,在40下,我们来研究下销量大于10K的,有这些:
- 名器男用自慰器撸飞机杯 ¥9.80。34496人付款
- 全自动双穴夹吸飞机杯 ¥39.00。11437人付款
- 全自动飞机杯 ¥399.00。12429人付款
- 夹吸全自动飞机杯 ¥79.00。12699人付款
- 全自动飞机杯 ¥48.00。13572人付款
- 免提飞机杯 ¥49.00。13475人付款
- 发声飞机杯 ¥109.00。31892人付款
价格是亮点
最后我们来研究下评论
使用评论做成的图云
商品种类的词云
太污了,我还只是个孩纸
商品名称词云
最后来试试情感分析, 参考了@王树义 老师写的 如何用Python做情感分析?
主要用到了snownlp 和 TextBlob
Sentiment(polarity=0.9578947368421052,subjectivity=0.6252631578947367)
0.96,看来人们的评价还是极高的。
如果你想购买某件商品,可以先把评论抓了,然后做个分析什么的。
这可能就是学Python的应用吧~
- 云计算,迷你版线程同步
- Kubernetes 年度关键进展回顾
- 比较一下以“反射”和“表达式”执行方法的性能差异
- 人工智能芯片是什么?有什么用?
- 柯洁食言“复出”再战AI:明年4月见分晓
- 深入探讨ASP.NET MVC的筛选器
- pytorch自然语言处理之Pooling层的句子分类
- su命令cannot set groups: Operation not permitted的解决方法
- 利用腾讯云 COS 云对象存储定时远程备份网站
- 腾讯云技术公开课:零基础入门高可用云端架构设计
- 包学会之浅入浅出Vue.js:开学篇
- 包学会之浅入浅出Vue.js:升学篇
- 一个只有99行代码的JS流程框架 (一)
- 【腾讯云的1001种玩法】试用腾讯云 Windows Server 2012 R2 镜像的几点经验分享
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- Java的I/O类库的基本架构一句话介绍
- 树莓派综合项目1:智能温度测量系统实验
- 一句话ListenableFuture简介
- Google Guava Cache 使用
- Linux下安装maven3.6.2遇到的问题
- Unity3D网络通讯(五)--Socket通讯之Udp通讯
- IP不能作为rocketmq 的topic
- Unity3D网络通讯(六)-- UnityWebRequest实现WebService通讯
- Java Maven编译时没问题,运行时报java.lang.NoSuchMethodError
- 树莓派基础实验34:L298N模块驱动直流电机实验
- The consumer group[PushConsumer] has been created before, specify another name please
- 虚拟机系列 | JVM特点,基础结构与执行周期
- 报错 解决-bash: fork: retry: Resource temporarily unavailable
- 结构与算法(04):排序规则与查找算法
- 手把手教你在 TKE 集群中实现简单的蓝绿发布和灰度发布