爬虫请求库之selenium

时间:2019-11-27
本文章向大家介绍爬虫请求库之selenium,主要包括爬虫请求库之selenium使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

一:简介

1:介绍

(1)selenium最初是测试工具

(2)爬虫使用该模块的原因是request无法操作js代码 而selenium可以操作js代码

(3)selenium本质是操作浏览器内核 完全模拟浏览器行为 例如 输入内容 点击等

(4)因为直接操作浏览器 我们无需考虑请求头等

2:支持的浏览器

from selenium import webdriver
browser=webdriver.Chrome()
browser=webdriver.Firefox()
browser=webdriver.PhantomJS()
browser=webdriver.Safari()
browser=webdriver.Edge() 

二:安装使用

1:安装

pip3 install selenium
下载chromdriver.exe放到python安装路径的scripts目录中即可
国内镜像网站地址:http://npm.taobao.org/mirrors/chromedriver/2.38/
最新的版本去官网找:https://sites.google.com/a/chromium.org/chromedriver/downloads

#注意:
selenium3默认支持的webdriver是Firfox,而Firefox需要安装geckodriver
下载链接:https://github.com/mozilla/geckodriver/releases

2:基本使用

1、find_element_by_id   根据id找
2、find_element_by_link_text     根据链接名字找到控件(a标签的文字)
3、find_element_by_partial_link_text   根据链接名字找到控件(a标签的文字)模糊查询
4、find_element_by_tag_name       根据标签名
5、find_element_by_class_name     根据类名
6、find_element_by_name           根据属性名 例如 name = 'xxx'
7、find_element_by_css_selector   根据css选择器
8、find_element_by_xpath          根据xpath选择

3:显示等待与隐式等待

(1)由于代码执行过快 可能某个标签还没有被加载出来但是代码已经执行完毕 导致不能正确查找标签

原文地址:https://www.cnblogs.com/SR-Program/p/11944669.html