pandas系列 - （一）明细数据汇总简单场景应用

官方文档：https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html

虽然可以直接查官方文档，不过还是结合一些实际场景，方便记忆，预计做一个使用的系列，涉及平时常见的数据处理应用。

从数据处理的角度来说，主要还是看怎么方便怎么来，少量的数据，简单的，直接EXCEL就可以完成了，大量的数据，或者涉及太多的表可以考虑使用python提高工作效率，没有绝对。

系列第一篇为，处理明细业务数据的python应用。
大致流程为：
1、读取源数据
2、源数据预处理
3、源数据分类汇总
4、源数据分类归并汇总

1、场景1：从多个excel读取同类型明细数据，并合并

# 读取数据
list_df = []
list_df.append(pd.read_excel(r'../data/learn_pandas/测试数据.xls',sheet_name='4',dtype=object))
list_df.append(pd.read_excel(r'../data/learn_pandas/测试数据.xls',sheet_name='5',dtype=object))
list_df.append(pd.read_excel(r'../data/learn_pandas/测试数据.xls',sheet_name='6',dtype=object))
list_df.append(pd.read_excel(r'../data/learn_pandas/测试数据.xls',sheet_name='7',dtype=object))

# 存在 concat 和 append 两种方法,都可以用于行合并，相对来说,concat可以一次性合并多个df，效率比append高
# 且concat可以进行列级别的追加，所以，推荐学会使用concat就可以了
# https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html?highlight=concat#pandas.concat
# ignor_index = True 保证索引不会重复，join = 'outer' 自动扩充列
df = pd.concat(list_df, sort=False,ignore_index=True,join='outer')
df.head(2)

2、场景2：数据预处理，检索源数据中的缺失项目

df.isnull().any()   # 查看哪一列存在空值

在知道哪些列存在空值后，进行数据预预处理。注意：

1、对于多种类型的数据使用fillna或者where填充；否则会提示

TypeError: Cannot do inplace boolean setting on mixed-types with a non np.nan value

2、或者分同类型的列进行填充；

#df.fillna(0,inplace=True)  # 统一使用0值填充
#df.fillna(method='ffill',inplace=True) #向后填充
df.fillna(value={'地区':'其他','销售额':0},inplace=True)  # 使用字典填充

3、场景3：按地区、一类属性汇总销售额总数和平均值，aggfunc可以采用字典指定字段计算方式

pd.pivot_table(df, values=['销售额'], index=['地区','一类'], aggfunc={'销售额':[np.sum,np.mean]})

但是，这么汇总一个问题，作为报告还好，但是如果还需要继续分析，更希望是以明细的方式展现。因此：

table = pd.pivot_table(df, values=['销售额'], index=['地区','一类'], aggfunc={'销售额':[np.sum,np.mean]}).reset_index()
# 调整列名，从多重索引降为一层索引
table.columns = [''.join(x) for x in table.columns.tolist()]
table.head(2)

4、场景4：如：想看大地区的数据，则先需要对数据进行归并，如华南地区，华中地区等

# 需要有华南地区等参照表
dfcz = pd.read_excel(r'../data/learn_pandas/测试数据.xls',sheet_name='dqcz',dtype=object)
dfcz.drop_duplicates(subset=['区域','省级'],keep=False,inplace=True)  # 去重
dic_cz = dict(zip(dfcz['省级'].tolist(),dfcz['区域'].tolist()))  # 通过两个列表形成字典
df2 = df.copy()
df2['转换区域'] = df2['地区'].map(dic_cz)  # 使用map进行转换
df2.head(2)

最后，再进行一次数据透视表

table = pd.pivot_table(df2, values=['销售额'], index=['转换区域','一类'], aggfunc={'销售额':[np.sum,np.mean]})
# 调整列名，从多重索引降为一层索引
table.columns = [''.join(x) for x in table.columns.tolist()]
table.head(2)

附：使用pandas修改源数据的一个注意事项，按照官方文档注释，请勿使用链式赋值的形式，否则你会不知道到底修改是否成功https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

参考链接：
Pandas 中 SettingwithCopyWarning 的原理和解决方案  https://www.jianshu.com/p/72274ccb647a

# 总之就是不允许使用筛选子数据来进行赋值
# 因为用了的话，你不知道有没有改到
# 所以，如果你需要修改，择直接在源数据上操作
# 对筛选后的数据进行操作，那么则使用copy()
pd.set_option('mode.chained_assignment','warn')
df = pd.DataFrame({'Animal': ['Falcon', 'Falcon', 'Parrot', 'Parrot'],'Max Speed': [1, 2, 3, 4],'Max Speed2': [380., 370., 24., 26.]})

# 跨多行代码链接索引，这里分两部分操作可以进行赋值，但是不推荐
df2 = df.iloc[0:2,:]
df2.iloc[0,'Animal'] = 2

# 链式索引这样是不会修改！
df.loc[0:2,:]['Animal'] = 2   

# 直接赋值，这样修改才比较靠谱！
df.loc[0:2,'Animal'] = 2

未完待续。