一个猎头的Python学习笔记01

时间:2022-04-21
本文章向大家介绍一个猎头的Python学习笔记01,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

直接来点儿干货吧

对于Python开发环境的安装,语言规则的熟悉过程就不说了,绝大部分Python教材都会讲到,简单说一下我目前使用的版本: Python使用最新的3.6版本,开发环境使用的是Pycharm 2017。基于Windows7环境,Mysql5.3,pip3 自动安装了pymysql,BeautifulSoup等模块。

第一周,通过几十行代码实现了猎聘网人选搜索记录的获取。

import requests

from bs4 import BeautifulSoup

import re

import pymysql.cursors

cookie = '''_MyCookies'''

header = {

'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36',

'Connection': 'keep-alive',

'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

'Cookie': cookie

}

url = https://h.liepin.com/search/soResume/

d = {'company': '乐视', 'keys': '', 'titleKeys': '', 'wantdqs': '010', 'dqs': '010', 'pageSize': '50'}

r = requests.post(url, headers=header, data=d)

r.encoding = 'utf-8'

soup = BeautifulSoup(r.text, 'lxml')

tr1 = soup.select('tr[class^=table-list-peo]')

tr2 = soup.select('tr[class^=table-list-info]')

print(tr1)

print(tr2)

以上代码可以获取如下红框中的内容。

相当于用猎聘搜索乐视公司,且目前所在地区和期望地区都是北京的人员名单。

以上代码很简单,出乎意料的简单!

第二周,我尝试解析网页代码并把搜索结果入库。首先我按照获取的内容用Mysql建了个数据表,结构如下:

表格中前面的数据项对应的是搜索结果的内容,后面的“入库时间”和“搜索条件”为以后做数据分析做准备,这个以后再讲。

通过页面的搜索结果我们可以看到,目前猎聘网上“乐视”公司在北京地区的人选有2666人(几天之前我记得应该有2680人,这个数据也很重要,可以监测某公司或某行业的人员流动情况,这个应用点以后再说),每页50人共有54页,获取这些内容后我们就可以将所有的网页爬完,然后将这2666人的简要信息写入我建的数据库了。

代码部分不再贴了,简单说就是页面的分析爬取和页面元素的解析入库。最终结果汇报一下:

这是爬完入库的数据表,2666的爬取入库需要大约75秒(单线程)。有了这个数据表,我们对目标公司人选的选择就更方便了,我可以按照任意字段排序,也可以在Mysql里面按照不同字段搜索。

第一阶段的任务基本完成了,这两周的劳动成果是,我目前可以对目标公司或特定行业进行搜索整理存入自己的数据库,至于数据的使用可以非常灵活,最简单的用法可以对目标公司信息进行跟踪,可以对比人选变化等等。

下一步任务是根据简要简历库中保存的链接爬取完整简历,完善简历信息。最终目的是通过机器学习进行自动推荐,路漫漫其修远......

(作者王军先生:70后,是广仕缘猎头高级顾问兼合伙人,有着丰富的IT互联网技术从业和创业经历,擅长IT互联网和金融行业的产品技术和研发类高端人群的猎寻和甄别)