新冠病毒 - 数据采集、模型预测

时间:2022-07-28
本文章向大家介绍新冠病毒 - 数据采集、模型预测,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

武汉加油、湖北加油、中国加油!!!

相关数据采集、预测仓库地址

项目背景

2020年开年爆发的新型冠状病毒,新的一年相信对于大家来说都是地狱模式开局,对于我本人也是如此,打乱了很多计划,有些不知所措,但是灾难面前,唯有同舟共济,对此我个人是乐观的,中华民族是不服输的民族,上下5000年历史,比这大的灾难比比皆是,但是我们依然屹立于此,依然活跃于世界舞台,这充分证明了中华民族的韧性,中国万岁;

之前看到丁香园上有实时的动态数据,就想着拉下来进行分析挖掘预测,第一版之前跑了两天后停止了,因为当时数据格式变化比较大,从2月5号开始第二版数据采集脚本,脚本很简单,目前采集间隔是10分钟,不是每10分钟都会采集,这取决于数据是否有变动,这里主要展示数据采集脚本以及一个简单的基于prophet的确诊、疑似、死亡、治愈的预测;

数据采集

数据基于丁香园的实时动态数据,感谢数据展示分享,对于大家了解疫情的实时情况真的帮助很大,各种数据可视化展示,大家也可以点进去看看,做的还是比较精细的,颗粒度最低可以到某个市的某个区,这也证明中国目前在全国统筹方面的能力在日益完善,当然还有很长的路要走,毕竟咱们的目标是星辰大海;

采集方式:主要数据分两部分,一部分是全国的整体情况,一部分是各省市情况,这两部分都处于script元素内,因此其实只需要找到对应的script元素,对于内容文本做截取后,转为json对象即可直接读取内部内容,而整体结构也是简洁明了,相信大家都能搞定的,下面是我的采集脚本,可以直接copy运行的,大家需要注意的主要以下几个点:1. 首先同级目录创建data_new文件夹,2. 一些注释要打开,主要是两部分注释是给csv文件写头行的,所以我写过一次就注释了,第一次运行需要打开,后续注释掉就行,我主要获取五类数据:城市名、确诊数、疑似数(这个只在全国部分有,各省市是没有的)、死亡数、治愈数;

#!/usr/bin/env python

# coding=utf-8





import requests

from bs4 import BeautifulSoup as BS

import json

import time

import sys,os

reload(sys)

sys.setdefaultencoding('utf-8')





while(True):

    try:

        r = requests.get('https://3g.dxy.cn/newh5/view/pneumonia_peopleapp?from=timeline&isappinstalled=0')

        soup = BS(r.content, 'html.parser')

        _cn_data = soup.find('script',id='getStatisticsService').get_text()

        _s = _cn_data.index('{', _cn_data.index('{')+1)

        _e = _cn_data.index('catch')-1

        _china = json.loads(_cn_data[_s:_e])

        _timestamp = _china['modifyTime']

        _cc,_sc,_dc,_cuc = _china['confirmedCount'],_china['suspectedCount'],_china['deadCount'],_china['curedCount']

        print _timestamp,_cc,_sc,_dc,_cuc

        if open('data_new/湖北省.csv').readlines()[-1].split(',')[0]==str(_timestamp):

        #if False:

            print('data not flush')

        else:

            #row = 'timestamp,confirmedCount,suspectedCount,curedCount,deadCount'

            #os.system('echo '+row+' >> data_new/中国.csv')

            row = ','.join([str(_timestamp),str(_cc),str(_sc),str(_cuc),str(_dc)])

            os.system('echo '+row+' >> data_new/中国.csv')

            _data = soup.find('script',id='getAreaStat').get_text()

            _data =  _data[_data.find('['):_data.rfind(']')+1]

            _provinces = json.loads(_data)

            for _province in _provinces:

                print _timestamp,_province['provinceName'],_province['provinceShortName'],_province['confirmedCount'],_province['suspectedCount'],_province['curedCount'],_province['deadCount'],len(_province['cities'])

                _fn = _province['provinceName']+'.csv'

                #row = 'timestamp,provinceName,cityName,confirmedCount,suspectedCount,curedCount,deadCount,locationId'

                #os.system('echo '+row+' >> data_new/'+_fn)

                for _city in _province['cities']:

                    row = ','.join([str(_timestamp),_province['provinceName'],_city['cityName'],str(_city['confirmedCount']),str(_city['suspectedCount']),str(_city['curedCount']),str(_city['deadCount']),str(_city['locationId'])])

                    os.system('echo '+row+' >> data_new/'+_fn)

    except Exception as e:

        print(e)

        pass

    time.sleep(60*10) # 10分钟flush一次

再次感谢丁香园的同学们,对于数据没有做太多保护处理,当然希望大家能够妥善使用;

疫情数据分析

这部分的代码在这里,大家可以随便取之食用,用的数据是WHO发布的全球数据,颗粒度是天,单位是省,分析主要是两部分第一部分是中国各省情况,第二部分是中国整体情况;

中国各省情况 - 确诊人数、死亡/确诊、治愈/确诊

可以看到,死亡率最高的依然是湖北,整个湖北、武汉人民来说却承受了太多太多,我想大家都欠他们一声“你们辛苦了”;

中国整体趋势 - 确诊、死亡、治愈的趋势图,死亡率、治愈率、死亡/治愈

可以看到,确诊、死亡、治愈人数曲线图依然没有缓和的趋势,但是好消息是治愈率在上升,而死亡率在下降,这一点从死亡/治愈的先升后降中也能看到;

确诊、疑似、死亡、治愈预测

这里我只用到了全国的总数据做预测,实际上因为脚本获取的也有各城市的情况,大家一样可以对数据源做一点点修改,就可以做大家感兴趣(比如家乡、工作地、女朋友所在地)等做预测了,还有一个问题需要大家注意,浏览数据时会看到数据有一个跳变的过程,这是因为丁香园的数据来源于国家相关部分,而这些数据的发布应该是有固定时间点的,所以会出现两个相邻数据之间,突然增长了一大段的情况,正常,不需要太惊讶;

全国确诊人数实际情况(2020/02/05到2020/02/09)+预测(实际数据后24小时)

横坐标是时间,纵坐标是人数,右侧没有点的部分的线就是往后24小时的预测人数,可以看到明显的阶梯状,这个我看了数据后大概是这么理解的,只有治愈人数是一天内多次有效更新的,其他确诊、疑似、死亡基本一天内的数据变动不大,所以看起来会有阶梯状;

疑似

死亡

治愈

把治愈的情况放到了最后,是想强调一下,大家对这次疫情要有足够的信心,看目前的数据上升趋势,情况正在逐步得到控制,当然也不可以掉以轻心,隔离依然是最最重要且有效的手段,每个人都做好自己的工作,我相信疫情结束的那一天很快就会到来;

预测部分的代码

#!/usr/bin/env python

# -*- coding: UTF-8 -*-



import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

from fbprophet import Prophet



df_train = pd.read_csv('./中国.csv', parse_dates=['timestamp'])

df_train['timestamp'] = df_train['timestamp'].apply(lambda ts:pd.Timestamp(int(ts), unit='ms'))

#df_train.sort_values(['timestamp'],inplace=True)



# confirmedCount

df_train_confirmed = df_train[['timestamp','confirmedCount']].copy()

df_train_confirmed = df_train_confirmed.rename(index=str, columns={"timestamp": "ds", "confirmedCount": "y"})

# suspectedCount

df_train_suspected = df_train[['timestamp','suspectedCount']].copy()

df_train_suspected = df_train_suspected.rename(index=str, columns={"timestamp": "ds", "suspectedCount": "y"})

# deadCount

df_train_dead = df_train[['timestamp','deadCount']].copy()

df_train_dead = df_train_dead.rename(index=str, columns={"timestamp": "ds", "deadCount": "y"})

# curedCount

df_train_cured = df_train[['timestamp','curedCount']].copy()

df_train_cured = df_train_cured.rename(index=str, columns={"timestamp": "ds", "curedCount": "y"})



# test

df_test = pd.DataFrame({})

df_test['ds'] = pd.date_range(start=df_train_confirmed.ds.max(), freq="H", periods=24)



m = Prophet()

#m.fit(df_train_confirmed)

#m.fit(df_train_suspected)

#m.fit(df_train_dead)

m.fit(df_train_cured)



forecast = m.predict(pd.concat([df_train_confirmed[['ds']],df_test[['ds']]]))



#print forecast[['ds', 'yhat', 'yhat_lower', 'yhat_upper']].tail()

m.plot(forecast)

plt.xlabel('Date')

plt.ylabel('Cured Count')

plt.show()

最后

引用一句WHO的话:

We must remember that these are people, not numbers.

翻译过来意思是:我们必须记住这不是数字,而是人。

希望疫情结束后,每个人都能见到自己的亲人、朋友、同事、每一个自己关心的人,能够给他们一个拥抱,谢谢他们还能陪伴自己,谢谢他们没有抛下自己。

最后的最后

大家可以到我的Github上看看有没有其他需要的东西,目前主要是自己做的机器学习项目、Python各种脚本工具、数据分析挖掘项目以及Follow的大佬、Fork的项目等:

https://github.com/NemoHoHaloAi