Python爬虫练习 爬取网络小说保存到txt
时间:2022-07-25
本文章向大家介绍Python爬虫练习 爬取网络小说保存到txt,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
利用python爬虫爬取网络小说保存到txt,熟悉利用python抓取文本数据的方法。
以爬取《伏天氏》这本小说的章节内容为例,目标url:http://www.xbiquge.la/0/951/
选取其中某一章,检查网页,可以找到这本小说所有章节的链接和名称。
写出xpath表达式提取出href里的内容://div@id=“list”/dl/dd/a/@href
分析网页可得,提取出来的内容里每个元素前面应加上 http://www.xbiquge.la 得到的才是是每个章节真正的链接
抓取所有章节的链接,代码如下:
def get_urls():
url = "http://www.xbiquge.la/0/951/"
response = requests.get(url, headers=headers)
response.encoding = 'utf-8'
html = etree.HTML(response.text)
# 所有章节的url列表
url_list = ['http://www.xbiquge.la' + x for x in html.xpath('//div[@id="list"]/dl/dd/a/@href')]
return url_list
抓取每章的章节名称和内容保存到txt,代码如下:
def get_text(url):
rep = requests.get(url, headers=headers)
rep.encoding = 'utf-8'
dom = etree.HTML(rep.text)
name = dom.xpath('//div[@class="bookname"]/h1/text()')[0]
text = dom.xpath('//div[@id="content"]/text()')
with open(path + f'{name}.txt', 'w', encoding='utf-8') as f:
for con in text:
f.write(con)
print(f'{name} 下载完成')
完整代码如下:
import requests
from lxml import etree
import time
import random
path = r'D:test伏天氏 '
headers = {
"Referer": "http://www.xbiquge.la/0/951/",
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1"
}
def get_urls():
url = "http://www.xbiquge.la/0/951/"
response = requests.get(url, headers=headers)
response.encoding = 'utf-8'
html = etree.HTML(response.text)
# 所有章节的url列表
url_list = ['http://www.xbiquge.la' + x for x in html.xpath('//div[@id="list"]/dl/dd/a/@href')]
return url_list
def get_text(url):
rep = requests.get(url, headers=headers)
rep.encoding = 'utf-8'
dom = etree.HTML(rep.text)
name = dom.xpath('//div[@class="bookname"]/h1/text()')[0]
text = dom.xpath('//div[@id="content"]/text()')
with open(path + f'{name}.txt', 'w', encoding='utf-8') as f:
for con in text:
f.write(con)
print(f'{name} 下载完成')
def main():
urls = get_urls()
for url in urls:
get_text(url)
time.sleep(random.randint(1, 3))
if __name__ == '__main__':
main()
运行效果如下:
程序运行,小说保存到了txt里。
作者:叶庭云 微信公众号:修炼Python CSDN:https://yetingyun.blog.csdn.net/ 本文仅用于交流学习,未经作者允许,禁止转载,更勿做其他用途,违者必究。 觉得文章对你有帮助、让你有所收获的话,期待你的点赞呀,不足之处,也可以在评论区多多指正。
- hdu----(1849)Rabbit and Grass(简单的尼姆博弈)
- 10分钟让你明白MySQL是如何利用索引的
- 扩展Yarn资源模型详解1
- hdu-------(1848)Fibonacci again and again(sg函数版的尼姆博弈)
- go语言实现将重要数据写入图片中
- poj-----(2528)Mayor's posters(线段树区间更新及区间统计+离散化)
- poj---(2886)Who Gets the Most Candies?(线段树+数论)
- Hadoop3.0通用版集群安装高可靠详细教程
- Hadoop3.0集群安装知识
- 分布式消息队列 RocketMQ 源码分析 —— Message 顺序发送与消费
- 深入解析快速排序算法的原理及其Go语言版实现
- Hadoop3.0: YARN Resource配置说明
- GO语言利用K近邻算法实现小说鉴黄
- Why Spring Boot
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- Kubernetes 1.19.0——其他控制器
- leetcode树之二叉树的所有路径
- Nginx 防盗链
- MySQL见闻录 - 入门之旅
- javaAPI操作hadoop hdfs
- java中各种距离换算
- SAP Spartacus HttpParamsURIEncoder单元测试文件备份
- 微PE制作U盘启动盘,并安装Win10
- Angular单元测试如何只执行指定的测试用例,提高测试速度
- 院长智能部署Frp内网穿透---支持多系统
- dotnet OpenXML 元素 cNvPr NonVisual Drawing Properties 重复 id 标识处理
- Magicodes.IE之花式导出
- vue列表点击切换颜色
- JVM加载过程科普
- 我没学过计算机,是怎么接了四个私活还挣了两个 iPad 的?