[编程经验] 链家23个全国主要城市的现房数据分析
时间:2022-05-08
本文章向大家介绍[编程经验] 链家23个全国主要城市的现房数据分析,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
今天起来看到一个公众号发的推文,分析了链家上面成都的房价数据,自己好奇也玩了一把,收集了全国23个主要城市的在售房产数据,并作了对比,拿出来跟大家分享。涉及的城市有广州,大连,杭州,济南,石家庄,武汉,长沙,深圳,郑州,天津,佛山,北京,上海,惠州,沈阳,太原,厦门,重庆,珠海,合肥,成都,中山,南京,西安。爬虫写的比较笨,大神勿喷。
先放一张条形图,感受一下房价。
1. 数据爬取
打开链家的新房主页,任意选择一个城市,然后按楼盘来查找,就是下面这个。
然后我们主要关心的数据有楼盘的名字,售卖状态,地点以及价格等。然后查看网页源码之后发现,我们想要的数据在resblock-list-wrapper这个class里面。所以首先取到这个class下面的全部内容,然后再挨个提取我们想要的数据。
代码如下
import urllib.request
from bs4 import BeautifulSoup
from tqdm import trange
import pandas as pd
import requests
import os
import numpy as np
import matplotlib.pyplot as plt
from pylab import mpl
citys = {'bj': "北京", 'xa': "西安", 'cd': "成都",
'cq': "重庆", 'sh': "上海", 'sz': "深圳",
'gz': "广州", 'hz': "杭州", 'dl': "大连",
'nj': "南京", 'sjz': "石家庄", 'sy': "沈阳",
'tj': "天津", 'wh': "武汉", 'xm': "厦门",
'cs': '长沙', 'zz': '郑州', 'ty': '太原',
'hf': '合肥', 'fs': "佛山", 'hui': '惠州',
'jn': '济南', 'zs': "中山"}
print(len(citys))
mpl.rcParams['font.sans-serif'] = ['FangSong']
mpl.rcParams['axes.unicode_minus'] = False
for city in citys.keys():
save_data = []
for i in trange(120):
url = "https://{}.fang.lianjia.com/"
"loupan/pg{}/".format(city, i)
print(requests.get(url).status_code)
if requests.get(url).status_code != 200:
continue
req = urllib.request.Request(url)
req.add_header("User-Agent",
"Mozilla/5.0 (Windows NT 6.1; WOW64) "
"AppleWebKit/537.36 (KHTML, like Gecko)"
" Chrome/45.0.2454.101 Safari/537.36")
req.add_header("Accept", "*/*")
req.add_header("Accept-Language", "zh-CN,zh;q=0.8")
data = urllib.request.urlopen(req)
html = data.read().decode('utf-8')
soup = BeautifulSoup(html, "lxml")
resp = soup.findAll('ul',
attrs={
'class':
'resblock-list-wrapper'})
resp = resp[0]
resp = resp.findAll('li', attrs={'class':
'resblock-list'})
for i in range(len(resp)):
housenames = resp[i].findAll(
'div', attrs={'class': 'resblock-name'})
housename = housenames[0].findAll(
'a', attrs={'target': '_blank'})[0].text
herf = housenames.get('herf')
print(herf)
exit(1)
try:
housenames = resp[i].findAll(
'div', attrs={'class': 'resblock-name'})
housename = housenames[0].findAll(
'a', attrs={'target': '_blank'})[0].text
herf = housenames.get('herf')
print(herf)
resblocktype = housenames[0].findAll(
'span', attrs={'class':
'resblock-type'})[0].text
salestatus = housenames[0].findAll(
'span', attrs={'class':
'sale-status'})[0].text
except:
continue
try:
resblocklocation = resp[i].findAll(
'div', attrs={'class':
'resblock-location'})
addressinfolist =
resblocklocation[0].text.
replace("n", "")
quyu, address, addressinfo =
addressinfolist.split("/")[0],
addressinfolist.split("/")[1],
addressinfolist.split("/")[2]
except:
continue
try:
resblockroom = resp[i].findAll(
'a', attrs={'class': 'resblock-room',
'target': '_blank'})[
0].text.replace("n", "")
except:
continue
try:
resblockarea = resp[i].findAll(
'div', attrs={'class': 'resblock-area'})
[0].
text.replace("n", "").
replace("建面 ", "")
except:
continue
try:
resblockprice = resp[i].findAll(
'div', attrs={'class': 'main-price'})[0]
priceinfo = resblockprice.findAll(
'span', attrs={'class': 'number'})[0].
text
except:
continue
try:
secondprice = resp[i].findAll(
'div', attrs={'class': 'second'})[0].
text.replace("总价", "").
replace("万/套起", "")
except:
continue
rows = {'housename': housename,
'resblocktype': resblocktype,
'salestatus': salestatus,
'address': address,
'addressinfo': addressinfo,
'resblockroom': resblockroom,
'resblockarea': resblockarea,
'priceinfo': priceinfo,
'secondprice': secondprice}
save_data.append(rows)
df = pd.DataFrame(save_data)
df.to_csv("./datasets/{}.csv".format(city),
line_terminator="n", index=None)
2. 数据分析
然后分析每平米的价格数据,做个条形图
def analyse():
path = './datasets'
mean_price = []
for file in os.listdir(path):
filename = os.path.join(path, file)
data = pd.read_csv(filename,
usecols=['priceinfo']).values
prices = []
for x in data:
if str(x[0]).isdigit():
prices.append(int(x[0]))
pricesmean = np.mean(prices)
rows = {'city': citys[file.split(".")[0]],
'meanprice': pricesmean}
mean_price.append(rows)
df = pd.DataFrame(mean_price)
df = df.sort_values(by='meanprice', ascending=False)
labels = df['city']
price = df['meanprice']
width = 0.5
ind = np.linspace(1, 23, 23)
fig = plt.figure(dpi=600)
ax = fig.add_subplot(111)
ax.bar(ind - width / 2, price, width, color='green')
ax.set_xticks(ind)
ax.set_xticklabels(labels)
ax.set_ylabel('新房均价')
ax.set_title('全国23个大城市新房平均价格',
bbox={'facecolor': '0.8', 'pad': 5})
plt.grid(True)
plt.xticks(rotation=45)
plt.savefig("bar.jpg")
plt.close()
然后就是这个图了
从这个图可以看到,房价最高的不是北京和上海,而是杭州,并且成都的房价要低于西安,这个是我之前没有想到的。
花了大半天的时间,做了这些,然后链家里面有价值的数据我觉得还有房源的评论数据,这个数据其实也不难爬,可以给大家看看。我们点房源的评论,网页就跳转到这个页面,url后面跟的这个是什么呢?
回到上一页,点楼盘名称,然后查看源代码,然后看到这个herf后面跟着的就是评论的url后面的。
所以想要爬取评论数据,只要提取出这个herf,然后跟在前面的url后面就可以了。然后提取具体的评论语料就简单了哈。
有需要的童鞋可以下载本文代码:
链接:https://pan.baidu.com/s/1dOTXTk 密码:i5uh
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- Centos8下django项目部署 nginx+uwsgi的教程
- 3分钟短文:Laravel把数据验证的手伸向“请求体”
- 「Redis」字符串
- Elasticsearch:pipeline aggregation 介绍
- Qt音视频开发32-Onvif网络设置
- 3分钟短文:说说Laravel模型关联关系最单纯的“一对一”
- Redis 缓存性能实践及总结
- 如何优雅的在react-hook中进行网络请求
- Git commit emoji 食用指南
- 编译安装 ProtoBuf 扩展
- 一键搭建 KMS 服务
- vuepress-theme-yur 使用教程
- 使用 XDebug + Webgrind 进行 PHP 程序性能分析
- 我给自己组装了一台 ITX 小台式
- PHPStorm 常用插件集合