一个猎头的Python学习笔记01

直接来点儿干货吧

对于Python开发环境的安装，语言规则的熟悉过程就不说了，绝大部分Python教材都会讲到，简单说一下我目前使用的版本： Python使用最新的3.6版本，开发环境使用的是Pycharm 2017。基于Windows7环境，Mysql5.3，pip3 自动安装了pymysql,BeautifulSoup等模块。

第一周，通过几十行代码实现了猎聘网人选搜索记录的获取。

import requests

from bs4 import BeautifulSoup

import re

import pymysql.cursors

cookie = '''_MyCookies'''

header = {

'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36',

'Connection': 'keep-alive',

'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

'Cookie': cookie

}

url = https://h.liepin.com/search/soResume/

d = {'company': '乐视', 'keys': '', 'titleKeys': '', 'wantdqs': '010', 'dqs': '010', 'pageSize': '50'}

r = requests.post(url, headers=header, data=d)

r.encoding = 'utf-8'

soup = BeautifulSoup(r.text, 'lxml')

tr1 = soup.select('tr[class^=table-list-peo]')

tr2 = soup.select('tr[class^=table-list-info]')

print(tr1)

print(tr2)

以上代码可以获取如下红框中的内容。

相当于用猎聘搜索乐视公司，且目前所在地区和期望地区都是北京的人员名单。

以上代码很简单，出乎意料的简单！

第二周，我尝试解析网页代码并把搜索结果入库。首先我按照获取的内容用Mysql建了个数据表，结构如下：

表格中前面的数据项对应的是搜索结果的内容，后面的“入库时间”和“搜索条件”为以后做数据分析做准备，这个以后再讲。

通过页面的搜索结果我们可以看到，目前猎聘网上“乐视”公司在北京地区的人选有2666人（几天之前我记得应该有2680人，这个数据也很重要，可以监测某公司或某行业的人员流动情况，这个应用点以后再说），每页50人共有54页，获取这些内容后我们就可以将所有的网页爬完，然后将这2666人的简要信息写入我建的数据库了。

代码部分不再贴了，简单说就是页面的分析爬取和页面元素的解析入库。最终结果汇报一下：

这是爬完入库的数据表，2666的爬取入库需要大约75秒（单线程）。有了这个数据表，我们对目标公司人选的选择就更方便了，我可以按照任意字段排序，也可以在Mysql里面按照不同字段搜索。

第一阶段的任务基本完成了，这两周的劳动成果是，我目前可以对目标公司或特定行业进行搜索整理存入自己的数据库，至于数据的使用可以非常灵活，最简单的用法可以对目标公司信息进行跟踪，可以对比人选变化等等。

下一步任务是根据简要简历库中保存的链接爬取完整简历，完善简历信息。最终目的是通过机器学习进行自动推荐，路漫漫其修远......

（作者王军先生：70后，是广仕缘猎头高级顾问兼合伙人，有着丰富的IT互联网技术从业和创业经历，擅长IT互联网和金融行业的产品技术和研发类高端人群的猎寻和甄别）