pandas系列 - (一)明细数据汇总简单场景应用
时间:2022-07-28
本文章向大家介绍pandas系列 - (一)明细数据汇总简单场景应用,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
官方文档:https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html
虽然可以直接查官方文档,不过还是结合一些实际场景,方便记忆,预计做一个使用的系列,涉及平时常见的数据处理应用。
从数据处理的角度来说,主要还是看怎么方便怎么来,少量的数据,简单的,直接EXCEL就可以完成了,大量的数据,或者涉及太多的表可以考虑使用python提高工作效率,没有绝对。
系列第一篇为,处理明细业务数据的python应用。
大致流程为:
1、读取源数据
2、源数据预处理
3、源数据分类汇总
4、源数据分类归并汇总
1、场景1:从多个excel读取同类型明细数据,并合并
# 读取数据
list_df = []
list_df.append(pd.read_excel(r'../data/learn_pandas/测试数据.xls',sheet_name='4',dtype=object))
list_df.append(pd.read_excel(r'../data/learn_pandas/测试数据.xls',sheet_name='5',dtype=object))
list_df.append(pd.read_excel(r'../data/learn_pandas/测试数据.xls',sheet_name='6',dtype=object))
list_df.append(pd.read_excel(r'../data/learn_pandas/测试数据.xls',sheet_name='7',dtype=object))
# 存在 concat 和 append 两种方法,都可以用于行合并,相对来说,concat可以一次性合并多个df,效率比append高
# 且concat可以进行列级别的追加,所以,推荐学会使用concat就可以了
# https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html?highlight=concat#pandas.concat
# ignor_index = True 保证索引不会重复,join = 'outer' 自动扩充列
df = pd.concat(list_df, sort=False,ignore_index=True,join='outer')
df.head(2)
2、场景2:数据预处理,检索源数据中的缺失项目
df.isnull().any() # 查看哪一列存在空值
在知道哪些列存在空值后,进行数据预预处理。注意:
1、对于多种类型的数据使用fillna或者where填充;否则会提示
TypeError: Cannot do inplace boolean setting on mixed-types with a non np.nan value
2、或者分同类型的列进行填充;
#df.fillna(0,inplace=True) # 统一使用0值填充
#df.fillna(method='ffill',inplace=True) #向后填充
df.fillna(value={'地区':'其他','销售额':0},inplace=True) # 使用字典填充
3、场景3:按地区、一类属性汇总销售额总数和平均值,aggfunc可以采用字典指定字段计算方式
pd.pivot_table(df, values=['销售额'], index=['地区','一类'], aggfunc={'销售额':[np.sum,np.mean]})
但是,这么汇总一个问题,作为报告还好,但是如果还需要继续分析,更希望是以明细的方式展现。因此:
table = pd.pivot_table(df, values=['销售额'], index=['地区','一类'], aggfunc={'销售额':[np.sum,np.mean]}).reset_index()
# 调整列名,从多重索引降为一层索引
table.columns = [''.join(x) for x in table.columns.tolist()]
table.head(2)
4、场景4:如:想看大地区的数据,则先需要对数据进行归并,如华南地区,华中地区等
# 需要有华南地区等参照表
dfcz = pd.read_excel(r'../data/learn_pandas/测试数据.xls',sheet_name='dqcz',dtype=object)
dfcz.drop_duplicates(subset=['区域','省级'],keep=False,inplace=True) # 去重
dic_cz = dict(zip(dfcz['省级'].tolist(),dfcz['区域'].tolist())) # 通过两个列表形成字典
df2 = df.copy()
df2['转换区域'] = df2['地区'].map(dic_cz) # 使用map进行转换
df2.head(2)
最后,再进行一次数据透视表
table = pd.pivot_table(df2, values=['销售额'], index=['转换区域','一类'], aggfunc={'销售额':[np.sum,np.mean]})
# 调整列名,从多重索引降为一层索引
table.columns = [''.join(x) for x in table.columns.tolist()]
table.head(2)
附:使用pandas修改源数据的一个注意事项,按照官方文档注释,请勿使用链式赋值的形式,否则你会不知道到底修改是否成功https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
参考链接:
Pandas 中 SettingwithCopyWarning 的原理和解决方案 https://www.jianshu.com/p/72274ccb647a
# 总之就是不允许使用筛选子数据来进行赋值
# 因为用了的话,你不知道有没有改到
# 所以,如果你需要修改,择直接在源数据上操作
# 对筛选后的数据进行操作,那么则使用copy()
pd.set_option('mode.chained_assignment','warn')
df = pd.DataFrame({'Animal': ['Falcon', 'Falcon', 'Parrot', 'Parrot'],'Max Speed': [1, 2, 3, 4],'Max Speed2': [380., 370., 24., 26.]})
# 跨多行代码链接索引,这里分两部分操作可以进行赋值,但是不推荐
df2 = df.iloc[0:2,:]
df2.iloc[0,'Animal'] = 2
# 链式索引这样是不会修改!
df.loc[0:2,:]['Animal'] = 2
# 直接赋值,这样修改才比较靠谱!
df.loc[0:2,'Animal'] = 2
未完待续。
- TensorFlow全新的数据读取方式:Dataset API入门教程
- 不经意发现的dba_objects和dba_tables中的细节(r7笔记第56天)
- LeetCode——Longest Substring Without Repeating Characters
- Python time模块详解(时间戳↔元组形式↔格式化形式三者转化)
- Maven 核心原理解析(2)
- Linux C 编程——互斥锁mutex
- python两个 list 获取交集,并集,差集的方法.
- python——时间与时间戳之间的转换
- Maven 核心原理解析(3)
- String中的null,以及String s;等区别详解
- Shell编程——Shell中的数学运算
- 如何利用微信监管你的TF训练?
- python 安装spark_Spark环境搭建 (Python)
- MongoDB触发oom-killer的简单处理(一)(r7笔记第54天)
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 使用sysbench进行压测 Part1 sysbench安装
- Java并发编程(07):Fork/Join框架机制详解
- PostgreSQL Pgbouncer 到底怎么使用,疗效有多大
- 微信练手小程序源码 - 日历(含各种功能组件)
- Redis 5.0.8安装
- Redis 主从搭建
- Redis 5.0.8 主从+哨兵的搭建
- ammo.js-bullet物理引擎碰撞检测
- TKE上动态部署jenkins slaves
- CVE-2017-0261及利用样本分析
- 流水的NLP铁打的NER:命名实体识别实践与探索
- Spring Boot入门系列(十七)Mybatis创建自定义mapper 实现多表关联查询!
- 让你笑的七个linux命令
- GPU并行计算之向量和
- ShardingJdbc分库分表实战案例解析(下)