scrapy爬虫框架爬取招聘网站
时间:2019-09-22
本文章向大家介绍scrapy爬虫框架爬取招聘网站,主要包括scrapy爬虫框架爬取招聘网站使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
目录结构
BossFace.py文件中代码:
# -*- coding: utf-8 -*-
import scrapy
from ..items import BossfaceItem
import json
class BossfaceSpider(scrapy.Spider):
name = 'BossFace'
allowed_domains = ['www.zhipin.com/c101010100-p100109/?page=2']
start_urls = ['https://fe-api.zhaopin.com/c/i/sou?start=90&pageSize=90&cityId=天津&salary=0,0&workExperience=-1&education=-1&companyType=-1&employmentType=-1&jobWelfareTag=-1&kw=Python&kt=3&=0&at=081a4411244a4e9c80d393212650f005&rt=6cc8df0863c944a88cbc303fa5d7dd40&_v=0.56963230&userCode=1041847897&x-zp-page-request-id=1dba50fde35b475b99fc09aa009dbee1-1568818384291-188677&x-zp-client-id=412ece5e-7595-4148-8838-3b957ac4202a']
def parse(self, response):
item = BossfaceItem()
rs = json.loads(response.text)['data']
res = dict(rs)
lis = res['results']
for i in range(0,len(lis)):
item['workName'] = lis[i]['jobName']
item['workPay'] = lis[i]['salary']
item['workPosition'] = lis[i]['city']['display']
item['degree'] = lis[i]['eduLevel']['name']
item['Company'] = lis[i]['company']['name']
yield item
items.py中的代码:
# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html
import scrapy
class BossfaceItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
workName = scrapy.Field()
workPay = scrapy.Field()
workPosition = scrapy.Field()
degree = scrapy.Field()
Company = scrapy.Field()
workDetail = scrapy.Field()
pass
将这些开启,建立延迟,防止服务器封掉ip
在命令行创建的命令依次是:
1.scrapy startproject bossFace
2.scrapy genspider BossFace www.zhipin.com #进入spider中执行
3.scrapy crawl BossFace #进入第二级别的bossFace中执行
4.scrapy crawl BossFace -o item.json #执行目录与3相同
原文地址:https://www.cnblogs.com/superSmall/p/11569316.html
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- CSS外观属性
- serverless 部署egg的layer组件,整个node_modules上传报错
- HTML标签
- 给IMX6ULL编译鸿蒙Liteos-a
- 鸿蒙源码下载并编译
- g2o、Eigen、Mat矩阵类型转换
- 相见恨晚!OLAP数仓基础入门大全
- Activiti7 流程变量(UEL-Value方式)
- 给IE9及其以下等不支持classList属性的浏览器,添加classList属性
- Docker使用手册 嵌入式Linux环境搭建
- Activiti7 流程部署
- Activiti7 启动流程实例
- linux文本处理工具及正则表达式
- linux目录结构及文件管理
- centos7-httpd虚拟主机