简陋的分布式爬虫(附项目代码地址)
时间:2022-04-25
本文章向大家介绍简陋的分布式爬虫(附项目代码地址),主要内容包括环境依赖、如何启动、核心点说明、本文项目地址:https://github.com/PyCN/Ugly-Distributed-Crawler、基本概念、基础应用、原理机制和需要注意的事项等,并结合实例形式分析了其使用技巧,希望通过本文能帮助到大家理解应用这部分内容。
專 欄
❈
哇咔咔,学习过C, C++, Python, 了解java,html, javascript基础。其中就Python而言,自己写过简单的博客(注册,登录,发帖,删帖,评论),写过几个爬虫。
❈
新手向,基于Redis构建的分布式爬虫。 以爬取考研网的贴子为例,利用 PyQuery, lxml 进行解析,将符合要求的文章文本存入MySQ数据库中。
结构简介
cooperator
协作模块,用于为Master&Worker模块提供代理IP支持
master
提取满足条件的文章url,并交给Worker进一步处理
Worker
解析文章内容,将符合要求的存入数据库
环境依赖
sqlalchemy => 1.0.13 pyquery => 1.2.17 requests => 2.12.3 redis => 2.10.5 lxml => 3.6.0
- 需要预先安装MySQL-server 和 Redis-server.
- MySQL中应有名为kybsrc的数据库,且该数据库包含一个名为posts的表,拥有num(INT AUTO_INCREMENT)和post(TEXT)两个字段。
如何启动
0. 先配置好各模块所引用的配置文件
1. 为了更好地运行,cooperator/start.py 应提前开始并完成一次工作函数执行
第一次执行完后,每五分钟运行一次工作函数
2. 启动 master/start.py
默认只执行一次
3. 启动 worker/start.py
默认循环监听是否有新的URL待解析
核心点说明
1. 通过Redis的集合类型进行代理IP和URL的传递
# Summary Reference
# ---------
# 创建句柄
def make_redis_handler():
pool = redis.ConnectionPool(host=r_server['ip'], port=r_server['port'], password=r_server['passwd'])
return redis.Redis(connection_pool=pool)
# 获得句柄
def make_proxy_handler():
return make_redis_handler()
# 保存到指定的set下
def check_and_save(self, proxy):
'pass'
self.redis_handler.sadd(r_server['s_name'], proxy)
2. 由于在验证代理IP和使用封装的get_url()函数的时候网络IO较多,所以使用多线程(效果还是很明显的)。
#Summary Reference
#---------
def save_proxy_ip(self):
'pass'
for proxy in self.proxy_ip:
Thread(target=self.check_and_save, args=(proxy,)).start()
def get_url(url):
'pass'
while True:
'pass'
resp = request('get', url, headers=headers, proxies={'http': proxy})
'pass'
本文项目地址:https://github.com/PyCN/Ugly-Distributed-Crawler
- Leetcode 299. Bulls and Cows
- Leetcode 297. Serialize and Deserialize Binary Tree
- Leetcode 295. Find Median from Data Stream
- 投入大见效慢,还要做AI?
- Leetcode 292. Nim Game
- Leetcode 290. Word Pattern
- 【深度学习】使用tensorflow实现VGG19网络
- Leetcode 289. Game of Life
- Leetcode 287. Find the Duplicate Number
- Leetcode 284. Peeking Iterator
- Leetcode 283. Move Zeroes
- Leetcode 282. Expression Add Operators
- Leetcode 279. Perfect Squares
- Leetcode 278. First Bad Version
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- Python进行特征提取
- dotnet OpenXML 元素 cNvPr NonVisual Drawing Properties 的属性作用
- Java 对象相关面试题
- 【每日一题】【vue2源码学习】VUE中模版编译原理
- 【每日一题】【vue2源码学习】对VUE响应式数据的理解
- ApacheCN 深度学习译文集 2020.9
- 当Docker遇到Intellij IDEA,再次解放了生产力~
- 基于NPOI的Excel导入导出类库
- 在tinycolinux32上装tinycolinux64 kernel和toolchain
- 通过链下签名授权实现更少 Gas 的 ERC20代币
- 在dbcolinux上安装cozy-light
- 在群晖docker上装elmlang可视调试编码器ellie
- Elasticsearch:inverted index,doc_values及source
- 在群晖docker上构建私有云IDE和devops构建链
- 小白学PyTorch | 14 tensorboardX可视化教程