使用Python爬取并下载腾讯动漫

开发环境

操作系统:windows 10

Python版本 :3.6

爬取网页模块:selenium,PhantomJS

分析网页模块:BeautifulSoup4

selenium 是一个Web自动测试的工具，可以用来操作一些浏览器Driver，例如Chrome，Firefox等，也可以使用一些headless的driver，例如PhantomJS

具体请参加官网:

PhantomJS是一个无头(headless)的WebKit javascript API

我们可以用它模拟浏览器的操作，也可以用来截图

具体参加官网:

lxml为解析网页所必需

pip3 install selenium

pip3 install BeautifulSoup4

pip3 install lxml

这里我们下载Chrome driver和 Phantomjs

其他的driver见官网

Chrome下载

下载完成后可以放到系统环境变量中，如:

  C:WindowsSystem32

PhatomJS下载

下载后同样放到系统环境变量中

下载完成解压后只需要将exe文件放到目录下

我们以幽游白书为例

打开后发现漫画并没有全部加载需要向下翻页才可以加载完毕

之后通过开发者工具分析图片的地址

这里我们通过bs4 来提取出所有img地址

之后通过Python将其保存成图片

import selenium.webdriver

from bs4 import BeautifulSoup

driver = selenium.webdriver.Chrome()

#driver = selenium.webdriver.PhantomJS()

 content=driver.page_source

这里首先判断是否有该漫画的目录，如果没有则新建，之后下载图片，图片的名称为列表的索引号

源码请访问我的github主页