机器学习(十七)Microsoft的InterpretM可解释性 机器学习模型
InterpretML 简介
- 适合可解释的模型
- 解释blackbox机器学习,可视化的展示“黑箱"机器学习
InterpretML是一个开源软件包,用于训练可解释的模型并解释黑盒系统。可解释性主要表现在以下几点:
- 模型调试 - 模型哪里出现了错误?
- 检测偏差 - 模型表现出哪些区分能力?
- 策略学习 - 模型是否满足某些规则要求?
- 高风险的应用 - 医疗保健,金融,司法等
从历史上看,最容易理解的模型不是很准确,最准确的模型是不可理解的。 Microsoft Research开发了一种称为可解释增强机Explainable Boosting Machine(EBM)的算法,该算法具有高精度和可懂度。 EBM使用现代机器学习技术,如装袋和助推,为传统GAM(Generalized Additive Models)注入新的活力。 这使它们像随机森林和梯度提升树一样准确,并且还增强了它们的可懂度和可编辑性。
image
除了EBM之外,InterpretML还支持LIME,SHAP,线性模型,部分依赖,决策树和规则列表等方法。该软件包可以轻松比较和对比模型,以找到最适合您需求的模型。
安装
Python 3.5+ | Linux, Mac OS X, Windows
pip install numpy scipy pyscaffold
pip install -U interpret
实例1 回归任务-波士顿房价预测
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
boston = load_boston()
feature_names = list(boston.feature_names)
X, y = pd.DataFrame(boston.data, columns=feature_names), boston.target
seed = 1
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=seed)
探索数据集
from interpret import show
from interpret.data import Marginal
marginal = Marginal().explain_data(X_train, y_train, name = 'Train Data')
show(marginal)
很强大,比以前自己在做的繁琐EDA的时候便捷多了,marginal可以识别出变量的类型,比如连续变量或者类别型变量,可以计算出与Y的相关性系数等。
训练 Explainable Boosting Machine (EBM)
from interpret.glassbox import ExplainableBoostingRegressor, LinearRegression, RegressionTree
ebm = ExplainableBoostingRegressor(random_state=seed)
ebm.fit(X_train, y_train) #Works on dataframes and numpy arrays
ExplainableBoostingRegressor(data_n_episodes=2000, early_stopping_run_length=50, early_stopping_tolerance=1e-05, feature_names=['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT'], feature_step_n_inner_bags=0, feature_types=['continuous', 'continuous', 'continuous', 'categorical', 'continuous', 'continuous', 'continuous', 'continuous', 'continuous', 'continuous', 'continuous', 'continuous', 'continuous'], holdout_size=0.15, holdout_split=0.15, interactions=0, learning_rate=0.01, max_tree_splits=2, min_cases_for_splits=2, n_estimators=16, n_jobs=-2, random_state=1, schema=None, scoring=None, training_step_episodes=1)
模型全局概览:模型总体上学到了什么
ebm_global = ebm.explain_global(name='EBM')
show(ebm_global)
可以学习到每个特征在不同密度下的贡献分数
局部解释:每个特征与预测的关系
ebm.explain_local(X_test[:5], y_test[:5], name='EBM')
show(ebm_local)
预测值与真实值比较下的不同特征重要性
评估EBM的性能
回归任务评估指标为RMSE=3.82,R2=0.85(越接近1性能越好),已经很不错
测试一些其他的可解释模型
LinearRegression, RegressionTree
from interpret.glassbox import LinearRegression, RegressionTree
lr = LinearRegression(random_state=seed)
lr.fit(X_train, y_train)
rt = RegressionTree(random_state=seed)
rt.fit(X_train, y_train)
使用DashBoard展现不同模型的性能
lr_perf = RegressionPerf(lr.predict).explain_perf(X_test, y_test, name='Linear Regression')
rt_perf = RegressionPerf(rt.predict).explain_perf(X_test, y_test, name='Regression Tree')
show(lr_perf)
show(rt_perf)
show(ebm_perf)
与线性回归、决策树模型作比较,还是EBM的性能强大
Glassbox:展示所有的模型都有全局和局部
lr_global = lr.explain_global(name='Linear Regression')
rt_global = rt.explain_global(name='Regression Tree')
show(lr_global)
show(rt_global)
show(ebm_global)
image.png
DashBoard仪表板:一次查看所有内容
show([marginal, lr_global, lr_perf, rt_global, rt_perf, ebm_global, ebm_perf])
完整代码请见:https://github.com/yanqiangmiffy/quincy-python-v2
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法