Python爬淘宝——300W淘宝文胸说明了什么
时间:2022-05-07
本文章向大家介绍Python爬淘宝——300W淘宝文胸说明了什么,主要内容包括爬虫部署、简单统计与可视化展示、关键词分析、基本概念、基础应用、原理机制和需要注意的事项等,并结合实例形式分析了其使用技巧,希望通过本文能帮助到大家理解应用这部分内容。
项目地址:https://github.com/nladuo/taobao_bra_crawler 作者:叁公子KCN
爬虫部署
部署环境
测试环境:腾讯云主机一台
操作系统:ubuntu-14.04
数据库: mongodb
安装依赖
pip install -r requirements.txt
修改配置文件
config = {
'timeout' : 3,
'db_user': '',
'db_pass': '',
'db_host': 'localhost',
'db_port': 27017,
'db_name': 'taobao',
'use_tor_proxy': False,
'tor_proxy_port': 9050
}
一般的爬取速度不会有禁IP的情况。如果有被禁IP的情况可以使用tor代理,将config['use_tor_proxy']设置为True,具体方法见python中使用tor代理 · 叁公子的博客
运行爬虫
python crawler/item_crawler.py # 爬文胸的商品信息python crawler/rate_crawler.py # 爬文胸的评论信息
简单统计与可视化展示
1. 运行脚本
cd simple_analyzer
python simple_analyzer.py # 简单统计
cp bra.json data_visualization/static/ # 拷贝统计结果
2. 运行网页显示
cd data_visualization
npm install # 安装依赖
npm run dev # 进行调试
npm run build # 生成dist
好多A、B。。
为什么是黑色??
人数最多的竟然是75B,那是什么概念??
感兴趣的学习 女生胸围到底是70B大还是75B大?
关键词分析
运行脚本
cd keyword_analyzer
python create_corpus.py # 1.加载评论信息
python extract_tags.py # 2.提取关键词(20分钟左右, 可以直接用我的模型进行第三步)
python create_wordcloud.py # 3.生成词云图片
效果
- 一千个不用 Null 的理由
- TensorFlow强化学习入门(1.5)——上下文赌博机
- 以太坊·代币开发详解
- JSON Web Token - 在Web应用间安全地传递信息
- TensorFlow强化学习入门(2)——基于策略的Agents
- 用ABAP 生成二维码 QR Code
- CDS view注解解析 - @Environment.systemField
- Document flow API in SAP CRM and C4C
- Python基础知识4:文件操作
- Python基础知识6:格式化字符、颜色
- 给自定义控件(Web Control)添加事件的几种方法。前两种方法可以不实现IPostBackEventHandler
- 【开源】QuickPager ASP.NET2.0分页控件 v2.0.0.2版本。
- 【开源】我的分页控件正式命名为QuickPager ASP.NET2.0分页控件
- 【开源】QuickPager ASP.NET2.0分页控件V2.0.0.1——分页控件的源码 (二)
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- Python堆糖网图片爬虫,多进程及多线程的使用例子
- Python Post提交简单案例,文本内容在线语音合成
- Python多线程爬虫,主播信息资料爬取采集
- 基于Tensorflow2 Lite在Android手机上实现图像分类
- Python知乎专栏爬虫,pdfkit专栏文章制作PDF电子书
- Python爬虫练手,一个简单的Python资讯采集案例
- Python与seo,百度关键词相关搜索关键词采集源码
- istio请求路由分析
- [剑指]2空格替换
- (补充)SPAN+AVISPA for Verifying Cryptographic Protocols
- 如何修改终端中$符号前面的一串名称?
- Alfred 有多强悍,我写了个一键上传图片的 workflow 来告诉你
- Peewee出错:Illegal mix of collations
- 【TOOLS】Linux环境下升级python2.7到python3.6
- 溯源黑帽利用 Web 编辑器漏洞非法植入 SEO 页面事件