如何成为Python的数据操作库Pandas的专家?
前言
Pandas库是Python中最流行的数据操作库。受到R语言的frames启发,它提供了一种通过其data-frame API操作数据的简单方法。下面我们给大家介绍Pandas在Python中的定位。
01
了解Pandas
要很好地理解pandas,关键之一是要理解pandas是一系列其他python库的包装器。主要的有Numpy、SQL alchemy、Matplot lib和openpyxl。
data frame的核心内部模型是一系列NumPy数组和pandas函数。
pandas利用其他库来从data frame中获取数据。例如,SQL alchemy通过read_sql和to_sql函数使用;openpyxl和xlsx writer用于read_excel和to_excel函数。而Matplotlib和Seaborn则用于提供一个简单的接口,使用诸如df.plot()这样的命令来绘制data frame中可用的信息。
02
Numpy的Pandas-高效的Pandas
您经常听到的抱怨之一是Python很慢,或者难以处理大量数据。通常情况下,这是由于编写的代码的效率很低造成的。原生Python代码确实比编译后的代码要慢。不过,像Pandas这样的库提供了一个用于编译代码的python接口,并且知道如何正确使用这个接口。
向量化操作
与底层库Numpy一样,pandas执行向量化操作的效率比执行循环更高。这些效率是由于向量化操作是通过C编译代码执行的,而不是通过本机python代码执行的。另一个因素是向量化操作的能力,它可以对整个数据集进行操作,而不只是对一个子数据集进行操作。
应用接口允许通过使用CPython接口进行循环来获得一些效率:
df.apply(lambda x: x['col_a'] * x['col_b'], axis=1)
但是,大部分性能收益可以通过使用向量化操作本身获得,可以直接在pandas中使用,也可以直接调用它的内部Numpy数组。
03
通过DTYPES高效地存储数据
当通过read_csv、read_excel或其他数据帧读取函数将数据帧加载到内存中时,pandas会进行类型推断,这可能是低效的。这些api允许您明确地利用dtypes指定每个列的类型。指定dtypes允许在内存中更有效地存储数据。
df.astype({'testColumn': str, 'testCountCol': float})
Dtypes是来自Numpy的本机对象,它允许您定义用于存储特定信息的确切类型和位数。
例如,Numpy的类型np.dtype(' int32 ')表示一个32位长的整数。pandas默认为64位整数,我们可以节省一半的空间使用32位:
04
处理带有块的大型数据集
pandas允许按块(chunk)加载数据帧中的数据。因此,可以将数据帧作为迭代器处理,并且能够处理大于可用内存的数据帧。
在读取数据源时定义块大小和get_chunk方法的组合允许panda以迭代器的方式处理数据,如上面的示例所示,其中数据帧一次读取两行。然后我们可以遍历这些块:
i = 0
for a in df_iter:
# do some processing chunk = df_iter.get_chunk()
i += 1
new_chunk = chunk.apply(lambda x: do_something(x), axis=1)
new_chunk.to_csv("chunk_output_%i.csv" % i )
它的输出可以被提供到一个CSV文件,pickle,导出到数据库,等等…
英文原文: https://medium.com/analytics-and-data/become-a-pro-at-pandas-pythons-data-manipulation-library-264351b586b1
- 采用一个自创的"验证框架"实现对数据实体的验证[改进篇]
- Flash XSS检测脚本的简单实现
- 采用一个自创的"验证框架"实现对数据实体的验证[设计篇]
- 采用一个自创的"验证框架"实现对数据实体的验证[编程篇]
- 谈谈你最熟悉的System.DateTime[上篇]
- 12步轻松搞定Python装饰器
- 实用小工具,教你轻松转化Python通用数据格式
- 数据工程师常用的几个小工具(附python源代码)
- R语言的三种聚类方法
- 技能 | R语言的igraph画社交关系图示例
- 魔兽世界中招:一条命令行就能劫持你的游戏!
- R语言 apply函数家族详解
- 基于R语言的梯度推进算法介绍
- R语言数据可视化综合指南
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- SpringMVC源码学习(一) - DispatcherSerlet和相关组件
- SpringMVC源码学习(二) - DispatcherServlet和相关组件
- 微服务使用 Hystrix 实现服务降级
- SpringMVC源码学习(三) - 请求处理的流程
- Hadoop框架:集群模式下分布式环境搭建
- 微服务 Hystrix 实现服务熔断
- 微服务 Gateway 的基本配置
- 有赞营销逆向域的探索与实践
- RabbitMQ 启动报错:Error: unable to perform an operation on node ‘rabbit@***‘. Please see diagnostics...
- MySQL|查询字段数量多少对查询效率的影响
- 如果MySQL事务中发生了网络异常?
- MySQL|update字段为相同的值是否会记录binlog
- 微服务配置 Config 与消息总线
- 贷款违约预测-Task5 模型融合
- Python字符串