爬虫请求库之selenium

一：简介

1:介绍

（1）selenium最初是测试工具

（2）爬虫使用该模块的原因是request无法操作js代码而selenium可以操作js代码

（3）selenium本质是操作浏览器内核完全模拟浏览器行为例如输入内容点击等

（4）因为直接操作浏览器我们无需考虑请求头等

2:支持的浏览器

from selenium import webdriver
browser=webdriver.Chrome()
browser=webdriver.Firefox()
browser=webdriver.PhantomJS()
browser=webdriver.Safari()
browser=webdriver.Edge()

二：安装使用

1:安装

pip3 install selenium

下载chromdriver.exe放到python安装路径的scripts目录中即可
国内镜像网站地址：http://npm.taobao.org/mirrors/chromedriver/2.38/
最新的版本去官网找:https://sites.google.com/a/chromium.org/chromedriver/downloads

#注意：
selenium3默认支持的webdriver是Firfox，而Firefox需要安装geckodriver
下载链接：https://github.com/mozilla/geckodriver/releases

2:基本使用

1、find_element_by_id   根据id找
2、find_element_by_link_text     根据链接名字找到控件（a标签的文字）
3、find_element_by_partial_link_text   根据链接名字找到控件（a标签的文字）模糊查询
4、find_element_by_tag_name       根据标签名
5、find_element_by_class_name     根据类名
6、find_element_by_name           根据属性名 例如 name = 'xxx'
7、find_element_by_css_selector   根据css选择器
8、find_element_by_xpath          根据xpath选择

3:显示等待与隐式等待

（1）由于代码执行过快可能某个标签还没有被加载出来但是代码已经执行完毕导致不能正确查找标签

原文地址：https://www.cnblogs.com/SR-Program/p/11944669.html