掌握机器学习数学基础之概率统计（二）

标题：

机器学习为什么要使用概率

概率学派和贝叶斯学派

何为随机变量和何又为概率分布？

条件概率，联合概率和全概率公式：

边缘概率

独立性和条件独立性

期望、方差、协方差和相关系数

常用概率分布

贝叶斯及其应用

中心极限定理

极大似然估计

概率论中的独立同分布?

读完估计需要10min，这里主要讲解第二部分，第一部分详细看之前文章哦

边缘概率

边缘概率：当我们知道一组变量的联合概率分布时，若我们想知道一个子集的概率分布。那么定义在子集上的概率分布就被我们称为边缘概率分布。

离散型随机变量：X和Y，并且我们知道P(X, Y)。我们可以依据下面的求和法则来计算P(x)

注：这里有了大写字母表示随机变量，但其实要用小写的，具体查看上面第一节。

注：“边缘概率”的名称来源于手算边缘概率的计算过程。当P(x, y)的每个值被写在由每行表示不同的x值，每列表示不同的y值形成的网格中时，对网格中的每行求和是很自然的事情，然后将求和的结果P(x)写在每行右边的纸的边缘处。

连续型随机变量：我们需要用积分替代求和：

边缘概率可能用的不多，但是也是基础来的，因为很多其他重要知识设计边缘概率。

独立性和条件独立性

独立性：两个随机变量 x和y，如果它们的概率分布可以表示成两个因子的乘积形式,并且一个因子只包含x另一个因子只包含y,我们就称这两个随机变量是相互独立的：

条件独立性：如果关于 x 和 y 的条件概率分布对于 z 的每一个值都可以写成乘积的形式,那么这两个随机变量 x 和 y 在给定随机变量 z 时是条件独立的(conditionally independent):

我们可以采用一种简化形式来表示独立性和条件独立性:x⊥y 表示 x 和 y 相互独立,x⊥y z 表示 x 和 y 在给定 z 时条件独立。

记住独立性，这个真的重要，直接影响在看论文或者算法时对数学公式的理解。

期望、方差、协方差和相关系数

在概率论和统计学中，数学期望是试验中每次可能结果的概率乘以其结果的总和。它是最基本的数学特征之一，反映随机变量平均值的大小。

举例说明：

某城市有10万个家庭，没有孩子的家庭有1000个，有一个孩子的家庭有9万个，有两个孩子的家庭有6000个，有3个孩子的家庭有3000个。

则此城市中任一个家庭中孩子的数目是一个随机变量，记为X。它可取值0，1，2，3。

其中，X取0的概率为0.01，取1的概率为0.9，取2的概率为0.06，取3的概率为0.03。

则，它的数学期望

即此城市一个家庭平均有小孩1.11个。

相关系数：相关关系是一种非确定性的关系，相关系数是研究变量之间线性相关程度的量。由于研究对象的不同，相关系数有如下几种定义方式。

简单相关系数：又叫相关系数或线性相关系数，一般用字母r 表示，用来度量两个变量间的线性关系。定义式：

其中，Cov(X,Y)为X与Y的协方差，Var[X]为X的方差，Var[Y]为Y的方差

常用概率分布

伯努利试验（Bernoulli experiment）：是在同样的条件下重复地、相互独立地进行的一种随机试验，其特点是该随机试验只有两种可能结果：发生或者不发生。

（1）离散型随机变量分布：

泊松分布

日常生活中，大量事件是有固定频率的，比如：

某医院平均每小时出生3个婴儿

某网站平均每分钟有2次访问

某超市平均每小时销售4包奶粉

它们的特点就是，我们可以预估这些事件的总数，但是没法知道具体的发生时间。已知平均每小时出生3个婴儿，请问下一个小时，会出生几个？有可能一下子出生6个，也有可能一个都不出生，这是我们没法知道的。

泊松分布就是描述某段时间内，事件具体的发生概率。其概率函数为：

（2）连续型随机变量分布：

均匀分布

在概率论和统计学中，均匀分布也叫矩形分布，它是对称概率分布，在相同长度间隔的分布概率是等可能的。均匀分布由两个参数a和b定义，它们是数轴上的最小值和最大值，通常缩写为U（a，b）

均匀分布的概率密度函数为：

高斯分布/正态分布

高斯分布又叫正态分布，其曲线呈钟型，两头低，中间高，左右对称因其曲线呈钟形，如下图所示的这个不同期望和方差的分布图：

就如上图：σ描述正态分布资料数据分布的离散程度，σ越大，数据分布越分散，σ越小，数据分布越集中。也称为是正态分布的形状参数，σ越大，曲线越扁平，反之，σ越小，曲线越瘦高。

而对应的，一维正态分布，且其概率密度函数为：

注：高斯分布是几个及其重要的分布，希望读者可以去深入了解。

指数分布

指数分布是事件的时间间隔的概率，它的一个重要特征是无记忆性。这个是其最重要的性质！例如：如果某一元件的寿命的寿命为T，已知元件使用了t小时，它总共使用至少t+s小时的条件概率，与从开始使用时算起它使用至少s小时的概率相等。下面这些都属于指数分布：

婴儿出生的时间间隔

网站访问的时间间隔

奶粉销售的时间间隔

指数分布的公式可以从泊松分布推断出来。如果下一个婴儿要间隔时间t，就等同于t之内没有任何婴儿出生，即：

指数分布的图像如下：

这些常见的概率分布要详细记住并加以区分，在机器学习中，大量应用，比如一般线性模型，比如高斯混合模型等等，要区分的记，记住性质，理解公式！