python爬虫入门:scrapy爬取书籍的一些信息
时间:2022-05-30
本文章向大家介绍python爬虫入门:scrapy爬取书籍的一些信息,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
- 爬取这个网上的书籍http://www.allitebooks.com/security/
- 然后价格等信息在亚马逊上爬取:https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=xxx # xxx表示的是下面爬取的isbn
- 用的是python3.6
- 微博、小程序查看代码混乱,请查看原文~
准备
- 安装的包
$ pip install scrapy
$ pip install pymysql
- 需要了解的一些scrapy知识
Spider
Spider类想要表达的是:如何抓取一个确定了的网站的数据。比如在start_urls里定义的去哪个链接抓取,parse()方法中定义的要抓取什么样的数据。 当一个Spider开始执行的时候,它首先从start_urls()中的第一个链接开始发起请求,然后在callback里处理返回的数据。
Items
Item类提供格式化的数据,可以理解为数据Model类。
Selectors
Scrapy的Selector类基于lxml库,提供HTML或XML转换功能。以response对象作为参数生成的Selector实例即可通过实例对象的xpath()方法获取节点的数据。
编写
新建项目
$ scrapy startproject book_scrapy
这个是创建一个名为 book_scrapy的项目
新建爬虫
$ cd book_sacrpy/
$ scrapy genspider book_spiser allitebooks.com
- 结构如下:
├── book_sacrpy
│ ├── __init__.py
│ ├── items.py
│ ├── middlewares.py
│ ├── pipelines.py
│ ├── settings.py
│ └── spiders
│ ├── __init__.py
│ └── book_spiser.py
└── scrapy.cfg
提示:pycharm里面可以一步到位
编写Items类,就是要获取的东西都这里
# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html
import scrapy
class BookItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
# pass
title = scrapy.Field()
isbn = scrapy.Field()
price = scrapy.Field()
说明:
- title表示书的标题
- isbn表示书的编号,这样可以从亚马逊里面查到
- price表示价格,进入亚马逊之后爬取
编写Spider爬虫
就是spider文件夹下的book_spider.py文件,具体代码如下,css,xpath的分析省略
# -*- coding: utf-8 -*-
import scrapy
from book_sacrpy.items import BookItem
class BookSpiserSpider(scrapy.Spider):
name = 'book_spiser'
allowed_domains = ['allitebooks.com','amazon.com']
start_urls = ['http://allitebooks.com/security/',]
def parse(self, response):
num_pages = int(response.xpath('//a[contains(@title, "Last Page →")]/text()').extract_first())
base_url = "http://www.allitebooks.com/security/page/{0}/"
for page in range(1,num_pages):
yield scrapy.Request(base_url.format(page),dont_filter=True,callback=self.pare_page)
def pare_page(self,response):
for ever in response.css('.format-standard'):
book_url = ever.css('.entry-thumbnail a::attr(href)').extract_first("")
yield scrapy.Request(book_url,callback=self.pare_book_info)
def pare_book_info(self,response):
title = response.css('.single-title').xpath('text()').extract_first()
isbn = response.xpath('//dd[2]/text()').extract_first('').replace(' ','')
items = BookItem()
items['title'] = title
items['isbn'] = isbn
amazon_price_url = 'https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=' + isbn
yield scrapy.Request(amazon_price_url,callback=self.pare_book_price,meta={'items': items})
def pare_book_price(self,response):
items = response.meta['items']
items['price'] = response.xpath('//span/text()').re(r'$[0-9]+.[0-9]{2}?')[0]
yield items
说明:
- 导入前面编写的Items,是将爬取的数据通过yield方式提交
- 新建类继承的是scrapy.Spider类
- name为爬虫的名字,allowed_domains表示允许的域名,start_urls表示爬取的时候的入口url
运行:
爬取写入到一个csv文件
$ scrapy crawl book_sacrpy -o books.csv
拓展
写入mysql
介绍
- pipelines.py文件,是管道文件,数据传入item之后,会再传给pipeline,所以可以在pipelines.py里面写各种存数据的方式
- middlewares.py文件,是中间件文件,一般写爬虫的IP代理,user-agent等
- settings.py文件,是设置文件,里面主要是设置开启关闭pipelines、middlewares、是否爬取robots.txt等,也可以在这里面设置一些mysql的动态修改的文件等
我们暂时不用中间件,数据库自己提前设置好表头等信息
pipelines.py代码:
# -*- coding: utf-8 -*-
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
import pymysql
from book_sacrpy.items import BookItem
class BookIntodbPipeline(object):
def __init__(self):
self.conn = pymysql.connect("localhost","root","root","book",charset="utf8")
self.cursor = self.conn.cursor()
def process_item(self, item, spider):
insert_sql = '''
insert into book(title,isbn,price) VALUES ('{}','{}','{}')
'''
self.cursor.execute(insert_sql.format(item['title'],item['isbn'],item['price']))
self.conn.commit()
# return item
设置settings.py文件
ITEM_PIPELINES = {
'book_sacrpy.pipelines.BookIntodbPipeline': 300,
}
将上面这一段注释掉,写入我们编写的那个pipeline,数字越大表示越靠后,里面可以写多个pipeline
运行
$ scrapy crawl book_spiser
- 每次运行都要输入三个命令,下面介绍一种快速运行的方式
写一个run.py文件,代码如下:
# coding:utf8
from scrapy.cmdline import execute
import sys
import os
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy", "crawl", "book_spiser"])
以后只需要运行一个python run.py
- 微博、小程序查看代码混乱,请查看原文~
- github开源:https://github.com/liwg1995/spider_learn_again/tree/master/book_sacrpy
- iOS @property探究(一): 基础详解你要知道的@property都在这里
- 在创建带输出参数和返回值的存储过程时---犯下的一个低级错误
- iOS block探究(二): 深入理解你要知道的block都在这里
- 使用开源人脸特征提取器进行脸部颜值评分
- iOS @property探究(二): 深入理解你要知道的@property都在这里
- iOS block探究(一): 基础详解你要知道的block都在这里
- 在不动用sp_configure的情况下,如何 =》去掉列的自增长,并保留原数据
- iOS runtime探究(一): 从runtime开始理解面向对象的类到面向过程的结构体你要知道的runtime都在这里
- iOS runtime探究(二): 从runtime开始深入理解OC消息转发机制你要知道的runtime都在这里
- SpringMVC 启动流程及相关源码分析你要知道的SpringMVC启动流程和源码分析都在这里
- iOS runtime探究(四): 从runtiem开始实践Category添加属性与黑魔法method swizzling你要知道的runtime都在这里
- C# 复制PDF页面到另一个PDF文档
- Java8 Lambda表达式与Stream API (一):Lambda表达式你要知道的Java8 匿名内部类、函数式接口、lambda表达式与Stream API都在这里
- iOS runtime探究(五): 从runtime开始深入weak实现机理你要知道的runtime都在这里
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法