图片采集,python多线程采集头像图片源码附exe程序及资源包
混迹网络,怎么可能没有一两个马甲,而头像等资料的完善无疑是必需的,关于头像图片,不妨采集一下网站上的头像图片,省得找,全都可以要!!
目标网址:www.woyaogexing.com
python多线程抓取头像图片源码附exe程序及资源包!
相关介绍:
1.使用到的库requests、etree、re、os、ThreadPool
2.网页编码为utf-8需要转码:html.encoding=“utf-8”
3.使用xpath获取图片链接
4.使用了多线程
5.需要输入页面n,具体可以看动态图片
6.头像首页为栏目页,没有页面,这里用了if判断
7.py打包exe命令:pyinstaller -F 目录文件.py
关于多线程,这里应用了线程池,threadpool,这是一个比较老的模块了,现在虽然还有一些人在用,但已经不再是主流了,大家可以参考一下!
库安装方法:pip install threadpool
基本用法:
(1)引入threadpool模块
(2)定义线程函数
(3)创建线程 池threadpool.ThreadPool()
(4)创建需要线程池处理的任务即threadpool.makeRequests()
(5)将创建的多个任务put到线程池中,threadpool.putRequest
(6)等到所有任务处理完毕theadpool.pool()
import threadpool
def ThreadFun(arg1,arg2):
pass
def main():
device_list=[object1,object2,object3......,objectn]#需要处理的设备个数
task_pool=threadpool.ThreadPool(8)#8是线程池中线程的个数
request_list=[]#存放任务列表
#首先构造任务列表
for device in device_list:
request_list.append(threadpool.makeRequests(ThreadFun,[((device, ), {})]))
#将每个任务放到线程池中,等待线程池中线程各自读取任务,然后进行处理,使用了map函数,不了解的可以去了解一下。
map(task_pool.putRequest,request_list)
#等待所有任务处理完成,则返回,如果没有处理完,则一直阻塞
task_pool.poll()
if __name__=="__main__":
main()
说明:makeRequests存放的是要开启多线程的函数,以及函数相关参数和回调函数,其中回调函数可以不写(默认是无),也就是说makeRequests只需要2个参数就可以运行。
pycharm运行效果:
exe运行效果:
附上源码:
#www.woyaogexing.com头像采集
# -*- coding: utf-8 -*-
#by 微信:huguo00289
import requests
from lxml import etree
import re
import os
from multiprocessing.dummy import Pool as ThreadPool
def hqlj(n):
urls = []
for x in range(1,n+1):
url=f'https://www.woyaogexing.com/touxiang/index_{x}.html'
if x==1:
url='https://www.woyaogexing.com/touxiang/index.html'
print(url)
html=requests.get(url)
html.encoding="utf-8"
html=html.text
con=etree.HTML(html)
'''href=con.xpath('//div[@class="txList "]/a')
print(href)
for urls in href:
print(urls.attrib['href'])'''
href=con.xpath('//div[@class="txList "]/a/@href')
print(href)
for lj in href:
lj=f'https://www.woyaogexing.com{lj}'
print(lj)
urls.append(lj)
print(urls)
return urls
def hqtx(url):
#url="https://www.woyaogexing.com/touxiang/qinglv/2019/800160.html"
html=requests.get(url)
html.encoding="utf-8"
html=html.text
con=etree.HTML(html)
h1=con.xpath('//h1/text()')
h1=h1[0]
h1 = re.sub(r'[|/<>:*?\"]', "_", h1) # 剔除不合法字符
print(h1)
os.makedirs(f'./touxiang/{h1}/',exist_ok=True)
imgs=con.xpath('//img[@class="lazy"]/@src')
print(imgs)
i=1
for img in imgs:
img_url=f'https:{img}'
if 'jpeg' in img_url:
img_name=img_url[-5:]
else:
img_name = img_url[-4:]
n=str(i)
img_name='%s%s'%(n,img_name)
print(img_name)
print(img_url)
r=requests.get(img_url)
with open(f'./touxiang/{h1}/{img_name}','ab+') as f:
f.write(r.content)
print(f"保存{img_name}图片成功!")
i=i+1
#hqlj("https://www.woyaogexing.com/touxiang/")
if __name__ == '__main__':
n=input("请输入要采集的页码数:",)
n=int(n)
urls=(hqlj(n))
try:
# 开4个 worker,没有参数时默认是 cpu 的核心数
pool = ThreadPool()
results = pool.map(hqtx, urls)
pool.close()
pool.join()
print("采集所有头像完成!")
except:
print("Error: unable to start thread")
采集资源效果:
从此麻麻再也不用担心我没有头像用了!!
最后附上exe打包程序,需要的可以试试!
链接: https://pan.baidu.com/s/12--cjhgy_emKhx5-pEg5sA 提取码: fuas
爬取了500页数据,分享给大家吧!总共1.71g!
链接:https://pan.baidu.com/s/1kS-wDMc9yqaRl1m2qxKfCA 提取码:trrz
- 《Redis设计与实现》读书笔记(三十五) ——Redis 二进制位数组及SWAR汉明重量算法
- Android TabWidget底部显示
- 《Redis设计与实现》读书笔记(三十六) ——Redis 慢查询日志实现
- 概率学中的随机变量与分布
- 神马?SQL竟然可以解脑筋急转弯的题目?
- android中一些特殊字符(如:←↑→↓等箭头符号)的Unicode码值
- 基于SpringBoot的任务管理平台v1.0正式发布
- 大数据系统的Lambda架构
- AKKA中的事件流
- Java初涉感悟
- Android 6.0 Permission权限与安全机制
- SpringBoot工作机制
- Android权限管理PermissionsDispatcher2.3.2使用+原生6.0权限使用
- SpringBoot中的IoC
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 蓝桥杯 试题 基础练习 阶乘计算
- Java Lamada
- 试题 基础练习 高精度加法
- C# devExpress GridControl 行中行 子行 多级行
- 蓝桥杯 试题 基础练习 Huffuman树
- 蓝桥杯 试题 基础练习 2n皇后问题(包含n皇后问题讲解)
- 蓝桥杯 试题 基础练习 报时助手
- 蓝桥杯 试题 基础练习 回形取数
- 了解RefreshScope这篇短文就够了
- Educational Codeforces Round 83 (Rated for Div. 2) A~~E
- Codeforces Round #627 (Div. 3) 题解
- 牛客练习赛59 A~~D
- Codeforces Round #628 (Div. 2) A~~D
- AtCoder Beginner Contest 160 A ~ E
- SwiftUI:创建底部导航栏 tabBar