机器学习的一些基本概念

时间:2019-07-11
本文章向大家介绍机器学习的一些基本概念,主要包括机器学习的一些基本概念使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

机器学习的一些基本概念

什么是机器学习?

机器学习(Machine Learning,简称ML)是人工智能的一个子集,机器学习致力于研究如何通过计算的手段,从大量的数据中获取经验,利用经验来改善系统的性能,对新的情况作出有效的决策。机器学习所研究的主要内容就是在计算机上从数据中产生“模型”的算法,即学习算法(Learning Algorithm)。

数据集:数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。可以是文字描述也可以是图像、音频等。

示例(instance):数据集中的每条记录是关于一个事件或对象的描述。有时也叫作样本(Sample)。

属性(attribute):反应事件或对象在某方面的表现或性质的事项。例如西瓜的“色泽”等。有时也叫作特征(feature)。

属性值(attribute value):顾名思义就是属性上的值。如西瓜的色泽为青绿色。

属性空间(attribute space):属性张成的空间,例如把西瓜的“色泽”、“根蒂”、“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜在这个空间中都可以找到一个点与之对应。有时也叫作样本空间(Sample space)或输入空间(input space)。由于空间中的每个点对应一个坐标向量,因此也把一个示例称为一个“特征向量”。

例如:令$D={x_1,x_2,...,x_m}$表示包含$m$个示例的数据集,每个示例有$n$个属性描述,比如西瓜的“色泽”、“根蒂”、“敲声”或者”含糖量“等就是西瓜的属性,每个示例$x_i={x_{i1},x_{i2},...,x_{in}}$是$n$维样本空间的一个向量,其中$x_{ij}$是$x_i$在第$j$个属性上的取值,$n$就是样本的维数。

学习(learning):从数据中学得模型的过程,有时也叫作训练(training),这个过程是通过某些学习算法完成的。

训练数据(training data):学习或训练过程中使用的数据,其中每个样本称为一个“训练样本(training sample)”,训练样本组成的集合就叫做“训练集(training set)”。

假设(hypothesis):学得模型对应的关于数据的某种潜在的规律,例如根据西瓜的“色泽”、“根蒂”、“敲声”或者”含糖量“等推断西瓜的“好”或者“坏”。这种潜在的规律自身叫做“真相”或者“真实”(ground-truth)。学习过程就是为了根据数据计算模型或者经验找出或者毕竟真相。有时候也将模型叫做“学习器”。

样例(example):为了计算数据得出最优模型或者经验来对事物进行预测显然仅仅有示例数据是不够的,还要给示例数据加上标签(Label),例如((色泽=青绿,根蒂=蜷缩、敲声=浊响),好瓜),也就是说色泽为青绿,根蒂为蜷缩、敲声为浊响的西瓜就是好西瓜,当然也可以加入其它属性。拥有了标记信息的的示例叫做样例。

标记空间(label space):一般用$(x_i,y_i)$表示第$i$个样例,$x_i$表示第$i$个示例,$y_i$表示第$i$个示例的标记,所有的示例的标记的集合叫做标记空间(label space),也叫作输出空间(output space)。

分类(classification):如果预测的结果是离散的值,例如西瓜是“好瓜”或者“坏瓜”,这样的学习任务叫做分类。

回归(regression):如果预测的值是连续的值,例如西瓜的成熟度,这类的学习任务叫做回归。

二分类(binary classification):对只涉及两个类别的分类任务,例如西瓜的“好“或者”坏”。纸币的“新”或“旧”。等,通常称其中一个类为正类(positive class),另一个类为反类(negative class)。

多分类(multi-class classification):涉及到多个类别的分类,例如根据考试得分分为优秀、良好、中等、及格、不及格等。

一般地,预测任务是希望通过对训练数据集${(x_1,y_1),(x_2,y_2),...,(x_m,y_m)}$进行计算学习,得到最优模型或者经验,建立一个从输入空间到输出空间的映射,暂且定义输入空间为$I$,输出空间为$O$,目标是建立这样一个映射$f:I→O$。对于二分类任务通常输出空间$O={-1,+1}$或者$O={0,1}$,对于多分类任务,显然$|O|>2$;对于回归任务,$O=R$,当然有时候的$O\ne R$,例如预测西瓜的成熟度显然$O=[0,1]$,但是重要的是对于回归任务$O$是连续的。

测试(testing):学得模型或者经验后,试用其预测的过程叫做测试,被预测的样本叫做“测试样本(testing sample)”,整个测试样本的集合叫做测试集(testing set)。通常的学习过程中会将数据集分为训练集、测试集、验证集,三个数据集的大小需要符合一定的比例。

聚类(clustering):将训练集中的所有西瓜分成若干组,每个组称为一个"簇"(cluster),这些自动形成的簇可能对应一些潜在的概念的划分,例如“浅色瓜”、“深色瓜”或者“本地瓜”、“外地瓜”,若数据集中含有西瓜的含糖量可能还会有“高糖瓜”、“中糖瓜”、“低糖瓜”等,这些概念事先是不知道的,而且在学习过程中也没有人为地添加标签。

什么是监督学习?什么是无监督学习?

根据训练数据是否含有标记信息,将学习任务分为两大类:监督学习(supervised learning)和无监督学习(unsupervised learning)。分类和回归是监督学习的代表,聚类是无监督学习的代表。

泛化(generalization)能力:机器学习的目标是使通过计算大量数据得到的模型或者得出的经验能够很好地适应“新样本”,而不仅仅是在训练样本上工作的很好。学得的模型适用于新样本的能力成为“泛化”能力。具有很强泛化能力的模型能够很好地适用于整个样本空间。于是,尽管训练集通常只是一个样本空间的一个很小的采样,希望能够很好地反映出样本空间的特性,否则就很难期望在训练集上学得的模型能够在整个样本空间上工作的很好。通常假设样本空间中全体样本服从一个未知分布distribution),获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”(independent and identically distributed。一般而言,训练样本越多,得到的关于此未知分布的信息就越多,这样就越有可能通过学习获得具有泛化能力的模型。例如:对于回归类学习问题,如果存在一些异常点,提前没有对这些异常点进行过滤,计算过程中算法也没有对这些异常点进行很好的处理,那么这样的回归就会显然偏离于想要的正常值。

归纳(induction):从特殊到一般的泛化过程,即从具体的事实归结出一般性规律。例如:从样例中学习就是一个归纳的过程,因此也叫作“归纳学习”。广义上的归纳学习大体相当于从样例中学习,狭义上的归纳学习要求从训练数据中学习。

演绎(deduction):从一般到特殊的“特化”过程,即从基础原理推演出具体情况。例如:在数学中,基于一组公理和推理规则推导出与之相洽的定理,

版本空间(version space):现实问题中我们常面临很大的假设空间,但是学习的过程是基于有限训练样本集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,叫做“版本空间”。

例如:样本空间

编号 色泽 根蒂 敲声 好瓜
1 青绿 蜷缩 浊响
2 乌黑 蜷缩 浊响
3 青绿 硬挺 清脆
4 乌黑 稍蜷 沉闷

对应的版本空间

1.(色泽= ;根蒂=蜷缩;敲声=浊响)
2.(色泽=
;根蒂=蜷缩;敲声= )
3.(色泽=
;根蒂= *;敲声=浊响)

$flag 上一页 下一页