使用 joblib 对 Pandas 数据进行并行处理
使用 joblib 对 Pandas 数据进行并行处理
如果需要对一个很大的数据集进行操作,而基于一列数据生成新的一列数据可能都需要耗费很长时间。
于是可以使用 joblib 进行并行处理。
假设我们有一个 dataframe 变量 data,要基于它的 source 列生成新的一列 double,其实就是把原来的 source 列做了个平方运算。感觉就这个简单的运算,应该有更简单的方法,在这里只是举个例子,我们使用 apply 方法并行实现。
如果直接使用 apply 那么直接如下实现
import pandas as pd
def double_func(data):
return pow(data,2)
data["double"] = data["source"].apply(double_func)
使用并行实现如下
import pandas as pd
from joblib import Parallel, delayed
def double_func(data):
return pow(data,2)
def key_func(subset):
subset["double"] = subset["source"].apply(double_func)
data_grouped = data.groupby(data.index)
results = Parallel(n_jobs=8)(delayed(key_func)(group) for name, group in data_grouped)
data = pd.concat(results)
基本原理就是把整个 dataframe 根据 index,每行生成了一个子数据集,而把每个子数据集作为子任务使用多进程运行,最终生成 results 是多进程运行生成的结果的 list,使用 concat 重新组合就是我们最终想要的结果了。
n_jobs 参数就是需要使用几个进程池来运行程序。貌似一般 CPU 是几核的用几个进程会比较好?
其实速度并不是成倍减少的,具体原因我也……不太好讲清,但是还是可以很大幅度提升运行速度的。
顺便一提,如果数据集很大,程序一跑起来,根本不知道它跑得怎么样了,还是说卡死了。
注意到,我们生成的 data_grouped 是一个可迭代的对象,那么就可以使用 tqdm 来可视化进度条。
如果在 jupyter 里面使用的话,代码可以是下面这样
import pandas as pd
from joblib import Parallel, delayed
from tqdm import tqdm, tqdm_notebook
tqdm_notebook().pandas()
def double_func(data):
return pow(data,2)
def key_func(subset):
subset["double"] = subset["source"].apply(double_func)
data_grouped = data.groupby(data.index)
results = Parallel(n_jobs=8)(delayed(key_func)(group) for name, group in tqdm(data_grouped))
data = pd.concat(results)
友情提示,在我自己使用的时候遇到 bug ,提示无法从 Pandas 导入 PanelGroupby 的错误。查了许久才发现,是新版 Pandas 删除了PanelGroupby 这个模块。解决办法其实就是……升级 tqdm,在最新版已经修复了这个 bug 了。
原文地址:https://www.cnblogs.com/IvyWong/p/11889926.html
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- Asp.Net Core API 需要认证时发生重定向的解决方法
- 在 Windows 系统上启用远程应用
- ArcGIS Enterprise 配置 nginx 反向代理
- 在安卓手机上通过 Termux 运行编译/运行 .NET 应用
- 在 ASP.NET Core 中修改配置文件后自动加载新的配置
- 使用 frp 安全的暴露内网服务
- 在 .NET Core 应用中使用 NHibernate
- 使用 DataX 增量同步数据
- 在虚拟目录中部署 ASP.NET Core 应用
- Docker 容器的健康检查
- 使用 mono 编译 .NET Standard 应用
- 指定 ASP.NET Core 应用监听的端口
- 发布 Angular 应用至生产环境
- 在 NHibernate 中使用 Snow Flake ID
- 在 Angular 应用中创建包含组件