掌握机器学习数学基础之概率统计(二)

时间:2022-04-23
本文章向大家介绍掌握机器学习数学基础之概率统计(二),主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

标题:

机器学习为什么要使用概率

概率学派和贝叶斯学派

何为随机变量和何又为概率分布?

条件概率,联合概率和全概率公式:

边缘概率

独立性和条件独立性

期望、方差、协方差和相关系数

常用概率分布

贝叶斯及其应用

中心极限定理

极大似然估计

概率论中的独立同分布?

读完估计需要10min,这里主要讲解第二部分,第一部分详细看之前文章哦

边缘概率

边缘概率:当我们知道一组变量的联合概率分布时,若我们想知道一个子集的概率分布。那么定义在子集上的概率分布就被我们称为边缘概率分布。

离散型随机变量:X和Y,并且我们知道P(X, Y)。 我们可以依据下面的求和法则来计算P(x)

注:这里有了大写字母表示随机变量,但其实要用小写的,具体查看上面第一节。

注:“边缘概率”的名称来源于手算边缘概率的计算过程。 当P(x, y)的每个值被写在由每行表示不同的x值,每列表示不同的y值形成的网格中时,对网格中的每行求和是很自然的事情,然后将求和的结果P(x)写在每行右边的纸的边缘处。

连续型随机变量:我们需要用积分替代求和:

边缘概率可能用的不多,但是也是基础来的,因为很多其他重要知识设计边缘概率。

独立性和条件独立性

独立性:两个随机变量 x和y,如果它们的概率分布可以表示成两个因子的乘积形式,并且一个因子只包含x另一个因子只包含y,我们就称这两个随机变量是 相互独立的:

条件独立性:如果关于 x 和 y 的条件概率分布对于 z 的每一个值都可以写成乘积的形式,那么这两个随机变量 x 和 y 在给定随机变量 z 时是 条件独立的(conditionally independent):

我们可以采用一种简化形式来表示独立性和条件独立性:x⊥y 表示 x 和 y 相互独立,x⊥y z 表示 x 和 y 在给定 z 时条件独立。

记住独立性,这个真的重要,直接影响在看论文或者算法时对数学公式的理解。

期望、方差、协方差和相关系数

在概率论和统计学中,数学期望是试验中每次可能结果的概率乘以其结果的总和。它是最基本的数学特征之一,反映随机变量平均值的大小。

举例说明:

某城市有10万个家庭,没有孩子的家庭有1000个,有一个孩子的家庭有9万个,有两个孩子的家庭有6000个,有3个孩子的家庭有3000个。

则此城市中任一个家庭中孩子的数目是一个随机变量,记为X。它可取值0,1,2,3。

其中,X取0的概率为0.01,取1的概率为0.9,取2的概率为0.06,取3的概率为0.03。

则,它的数学期望

即此城市一个家庭平均有小孩1.11个。

相关系数:相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量。由于研究对象的不同,相关系数有如下几种定义方式。

简单相关系数:又叫相关系数或线性相关系数,一般用字母r 表示,用来度量两个变量间的线性关系。定义式:

其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差

常用概率分布

伯努利试验(Bernoulli experiment):是在同样的条件下重复地、相互独立地进行的一种随机试验,其特点是该随机试验只有两种可能结果:发生或者不发生。

(1)离散型随机变量分布:

泊松分布

日常生活中,大量事件是有固定频率的,比如:

某医院平均每小时出生3个婴儿

某网站平均每分钟有2次访问

某超市平均每小时销售4包奶粉

它们的特点就是,我们可以预估这些事件的总数,但是没法知道具体的发生时间。已知平均每小时出生3个婴儿,请问下一个小时,会出生几个?有可能一下子出生6个,也有可能一个都不出生,这是我们没法知道的。

泊松分布就是描述某段时间内,事件具体的发生概率。其概率函数为:

(2)连续型随机变量分布:

均匀分布

在概率论和统计学中,均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。 均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)

均匀分布的概率密度函数为:

高斯分布/正态分布

高斯分布又叫正态分布,其曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,如下图所示的这个不同期望和方差的分布图:

就如上图:σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。

而对应的,一维正态分布,且其概率密度函数为:

注:高斯分布是几个及其重要的分布,希望读者可以去深入了解。

指数分布

指数分布是事件的时间间隔的概率,它的一个重要特征是无记忆性。这个是其最重要的性质!例如:如果某一元件的寿命的寿命为T,已知元件使用了t小时,它总共使用至少t+s小时的条件概率,与从开始使用时算起它使用至少s小时的概率相等。下面这些都属于指数分布:

婴儿出生的时间间隔

网站访问的时间间隔

奶粉销售的时间间隔

指数分布的公式可以从泊松分布推断出来。如果下一个婴儿要间隔时间t,就等同于t之内没有任何婴儿出生,即:

指数分布的图像如下:

这些常见的概率分布要详细记住并加以区分,在机器学习中,大量应用,比如一般线性模型,比如高斯混合模型等等,要区分的记,记住性质,理解公式!