爬虫问题二:处理js异步加载问题
时间:2022-06-17
本文章向大家介绍爬虫问题二:处理js异步加载问题,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
前言
在新闻网站中大多采用的是异步加载模式,新闻条目会随滚动条的滚动而逐渐加载。当爬虫访问这类网站时得到的HTML数据仅仅是我们看到的页面数据,只有当我们向下滚动时,网页的源代码才会同步更新。例如:腾讯新闻,处理这类JS异步加载的问题,这里用selenium来解决。
环境
- Python 3.6.5
- 需要安装的包:selenium
- 编译器:sublime text 3
代码思路
导入需要用到的Python包
import selenium,time
from selenium import webdriver
用打开浏览器
driver = webdriver.Chrome(executable_path='chromedriver.exe')
输入我们需要爬取的网站
driver.get("https://new.qq.com/ch/milite/")
如果程序执行错误,浏览器没有打开,那么应该是没有装 Chrome 浏览器或者 Chrome 驱动没有配置在环境变量里。下载驱动,然后将驱动文件路径配置在环境变量即可。
将网页的滚动条拉到底部,触发JS加载新数据
jsCode = "var q=document.documentElement.scrollTop=100000"
driver.execute_script(jsCode)
休息3秒,从JS异步加载的完成到新闻页面的更新需要一些时间
time.sleep(3)
进行标签定位,定位到class="item-pics"的标签
div = driver.find_elements_by_class_name("item-pics")
for each in div:
each = each.find_element_by_tag_name("a")
打印爬取到的内容
print(each.text)
原代码
#这是一个军事新闻数据采集脚本
import selenium,time
from selenium import webdriver
if __name__ == '__main__':
driver = webdriver.Chrome(executable_path='chromedriver.exe')
driver.get("https://new.qq.com/ch/milite/")
for each in range(1,10):
jsCode = "var q=document.documentElement.scrollTop=100000"
driver.execute_script(jsCode)
time.sleep(3)
print(each)
time.sleep(3)
div = driver.find_elements_by_class_name("item-pics")
for each in div:
each = each.find_element_by_tag_name("a")
print(each.text)
- 我的WCF之旅 (11): 再谈WCF的双向通讯-基于Http的双向通讯 V.S. 基于TCP的双向通讯
- 更新弹幕系统的心得体会
- 我的WCF之旅(6):在Winform Application中调用Duplex Service出现TimeoutException的原因和解决方案
- 我的WCF之旅 (11): 再谈WCF的双向通讯-基于Http的双向通讯 V.S. 基于TCP的双向通讯
- 我的WCF之旅(6):在Winform Application中调用Duplex Service出现TimeoutException的原因和解决方案
- 扩展mysql - 手把手教你写udf
- scrapy初体验 - 安装遇到的坑及第一个范例
- Linux性能监控 - CPU、Memory、IO、Network
- 浅谈UDP(数据包长度,收包能力,丢包及进程结构选择)
- WCF版的PetShop之三:实现分布式的Membership和上下文传递
- “高并发”问题如何解决?腾讯云一分钟配置的“黑科技”帮您
- 初探JavaScript(三)——JS带我"碰壁"带我飞
- 初探JavaScript(四)——作用域链和声明提前
- 开发人员看测试之运行Github中的JBehave项目
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- Ansible playbook 编程
- 前端工程师自检清单73答
- Ansible playbook Vault 加密
- MySQL主从复制
- Ansible Jinja2 模板使用
- 自动化运维工具Ansible之Tests测验详解
- 自动化运维工具Ansible之Roles角色详解
- 全网最酷南极路线图
- 误删cloudera-scm-agent恢复
- 自动化运维工具Ansible之LNMP实践环境部署
- 如何在Windows下使用NCL
- Python基础绘图教程(一)
- 如何通过VMware安装Linux CentOS 7.7系统
- HBase入门
- VMware如何克隆一个虚拟机 主机名修改IP地址修改数据目录创建