【一起学Python】爬取前程无忧招聘信息并写入Excel
说在前面:这是依旧是来自Ricky的爬虫小实战。预告一下未来的几个主要内容吧,打算重写一下微信公众号后台,然后写几篇教程;之后是有关分词、词云、情感分析的一些内容;然后也有打算研究一下小程序,坑好多,慢慢填了。
▲ ▲ ▲
作为一名Pythoner,相信大家对Python的就业前景或多或少会有一些关注。索性我们就写一个爬虫去获取一些我们需要的信息,今天我们要爬取的是前程无忧!说干就干!进入到前程无忧的官网,输入关键字“Python”,我们会得到下面的页面
我们可以看到这里罗列了”职位名”、”公司名”、”工作地点”、”薪资”、”发布时间”,那么我们就把这些信息爬取下来吧!确定了需求,下一步我们就审查元素找到我们所需信息所在的标签,再写一个正则表达式把元素筛选出来就可以了!
顺理成章得到这样一个正则表达式:
reg = re.compile(r’class=”t1 “>.? <a target=”_blank” title=”(.?)”.? <a target=”_blank” title=”(.?)”.?(.?).?(.?).? (.?)‘,re.S)
完成这关键的一步,下面写入本地就灰常简单了!还是来段代码吧!
# -*- coding:utf-8 -*-
import urllib.request
import re# 获取原码
def get_content(page):
url = 'http://search.51job.com/list/000000,000000,0000,00,9,99,python,2,' + str(page) + '.html'
a = urllib.request.urlopen(url) # 打开网址
html = a.read().decode('gbk') # 读取源代码并转为unicode
return html
def get(html):
reg = re.compile( r'class="t1 ">.*? <a target="_blank" title="(.*?)".*? <span class="t2"><a target="_blank" title="(.*?)".*?<span class="t3">(.*?)</span>.*?<span class="t4">(.*?)</span>.*? <span class="t5">(.*?)</span>',
re.S) # 匹配换行符
items = re.findall(reg, html) return items
# 多页处理,下载到文件
for j in range(1, 10):
print("正在爬取第" + str(j) + "页数据...")
html = get_content(j) # 调用获取网页原码
for i in get(html): # print(i[0],i[1],i[2],i[3],i[4])
with open('51job.txt', 'a', encoding='utf-8') as f:
f.write(i[0] + 't' + i[1] + 't' + i[2] + 't' + i[3] + 't' + i[4] + 'n')
f.close()
再来一张效果图
看起来效果还不错,要是能够以表格的形式展示出来就更好了,在网上看到有的大佬直接把招聘信息写入excel表格,今天我也来试一下吧!其实也并麻烦,只需要将上面的代码稍加修改就可以了。下面贴一下代码,重要的地方会有注释。
# -*- coding:utf-8 -*-
import urllib.request
import re
import xlwt # 用来创建excel文档并写入数据
# 获取原码
def get_content(page):
url = 'http://search.51job.com/list/000000,000000,0000,00,9,99,python,2,' + str(page) + '.html'
a = urllib.request.urlopen(url) # 打开网址
html = a.read().decode('gbk') # 读取源代码并转为unicode
return html
def get(html):
reg = re.compile( r'class="t1 ">.*? <a target="_blank" title="(.*?)".*? <span class="t2"><a target="_blank" title="(.*?)".*?<span class="t3">(.*?)</span>.*?<span class="t4">(.*?)</span>.*? <span class="t5">(.*?)</span>',
re.S) # 匹配换行符
items = re.findall(reg, html) return items
def excel_write(items, index):
# 爬取到的内容写入excel表格
for item in items: # 职位信息
for i in range(0, 5): # print item[i]
ws.write(index, i, item[i]) # 行,列,数据
print(index)
index += 1
newTable = "test.xls" # 表格名称
wb = xlwt.Workbook(encoding='utf-8') # 创建excel文件,声明编码
ws = wb.add_sheet('sheet1') # 创建表格
headData = ['招聘职位', '公司', '地址', '薪资', '日期'] # 表头部信息
for colnum in range(0, 5):
ws.write(0, colnum, headData[colnum], xlwt.easyxf('font: bold on')) # 行,列
for each in range(1, 10):
index = (each - 1) * 50 + 1
excel_write(get(get_content(each)), index)
wb.save(newTable)
最后实现的效果如下图:
至此,我们的工作就已经完成了!有的朋友可能想要爬取其他工作的招聘信息,观察了一下URl可以知道修改一下关键字名称就可以了!可以定义成一个函数只需输入关键字,然后就可以自动爬取该工作的招聘信息!
条条大路通罗马,想要实现上面的效果肯定不止这一种方法,以上内容仅供参考,希望可以给有需要的朋友提供一点思路!至于代码就比较粗糙了,而本人也希望有一天能够写得一手风骚代码!还是要重申一遍,本人能力有限,文章中可能会有纰漏或者错误,也欢迎表哥表姐们前来指正!谢谢大家!
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 学习Centos7软raid5的挂载
- linux中crw brw lrw等等文件属性是什么
- centos中文件与权限的基本操作教程
- 在Linux中使用tcpdump命令捕获与分析数据包详解
- easyswoole一键安装脚本及宝塔安装错误问题
- CentOS7系统增加swap的操作方法实例
- iOS逆向之OpenSSH登录iPhone
- linux中SUID,SGID与SBIT的奇妙用途详解
- 详解Linux文件操作知识点
- Linux中nohup与&的用法和区别详解
- Linux中有效地管理进程的8个命令
- Centos7 下安装python3及卸载的教程
- Linux使用VIM编辑器的方法
- Centos安装MYSQL8.X的教程
- Linux使用join -a1来合并两个文件