机器学习实战基础（四）：计算回归准确性

简介

现在已经建立了回归器，接下来最重要的就是如何评价回归器的拟合效果。在模型评价的相关内容中，用误差（error）表示实际值与模型预测值之间的差值。

准备工作

下面快速了解几个衡量回归器拟合效果的重要指标（metric）。回归器可以用许多不同的指标进行衡量，部分指标如下所示。

平均绝对误差（mean absolute error）：这是给定数据集的所有数据点的绝对误差平均值。

均方误差（mean squared error）：这是给定数据集的所有数据点的误差的平方的平均值。这是最流行的指标之一。

中位数绝对误差（median absolute error）：这是给定数据集的所有数据点的误差的中位数。这个指标的主要优点是可以消除异常值（outlier）的干扰。
测试数据集中的单个坏点不会影响整个误差指标，均值误差指标会受到异常点的影响。

解释方差分（explained variance score）：这个分数用于衡量我们的模型对数据集波动的解释能力。如果得分1.0分，那么表明我们的模型是完美的。

R方得分（R2 score）：这个指标读作“R方”，是指确定性相关系数，用于衡量模型对未知样本预测的效果。最好的得分是1.0，值也可以是负数。

详细步骤

scikit-learn里面有一个模块，提供了计算所有指标的功能。重新打开一个Python文件，然后输入以下代码：

import sklearn.metrics as sm 
 
print "Mean absolute error =", round(sm.mean_absolute_error(y_test, y_test_pred), 2) 
print "Mean squared error =", round(sm.mean_squared_error(y_test, y_ test_pred), 2) 
print "Median absolute error =", round(sm.median_absolute_error(y_ test, y_test_pred), 
2) 
print "Explained variance score =", round(sm.explained_variance_ score(y_test, 
y_test_pred), 2) 
print "R2 score =", round(sm.r2_score(y_test, y_test_pred), 2)

每个指标都描述得面面俱到是非常乏味的，因此只选择一两个指标来评估我们的模型。通常的做法是尽量保证均方误差最低，而且解释方差分最高。

原文地址：https://www.cnblogs.com/qiu-hua/p/12978917.html