第二章概率分布

YaoWeiJie · 发表于 2016-11-27 16:41:13

本帖最后由 YaoWeiJie 于 2016-12-2 11:41 编辑

本章主要介绍概率分布，几个特定的比较常用的概率分布，这些分布主要用于构建更加复杂的模型，讨论一些重要的统计学概念例如贝叶斯推断。
本章通过概率分布讨论密度估计问题，后者指给定一个有限数据集，构建这个数据集对应的分布模型。这里假定数据集的每个数据都是独立同分布。密度估计问题是没有明确唯一答案的，一个有限的数据集可以对应无限种概率分布。
本章讨论参数分布中的二项分布，多项式分布，高斯分布。可以通过共轭先验概率更好地计算这些分布。最后讨论无参密度估计方法来估计分布，这种分布只取决于数据集的大小，参数只控制模型的复杂度，不控制这个分布。方法有直方图，近邻法，核方法。

2.1 二项式变量
抛硬币实验，硬币不均匀，
用μ表示硬币坏掉这个性质体现在概率上的变化。
开始进行贝叶斯观点的推断。第一步，给定数据集D = {x1, . . . , xN}，构建他的似然函数，即在参数的条件下得到数据集的概率，似然函数同时是μ的函数。

在频率学家观点里，把似然函数最大化来估计μ，因为D已经出现，所以最大化D的概率得到的μ对于D是最准确的，得到μ以后得到D的分布。相当于通过已知的数据推测未知的数据。贝叶斯观点μ不固定？或者说现在没法固定，通过现有的数据，模拟μ的分布来解决问题

最大化对数的似然函数得到

被称为最大似然估计，也被称为样本均值。
这种估计从给定数据集角度来讲很准确，但是有可能发生过拟合的现象。如果给定数据集太少而且缺乏代表性，比如三次都是硬币向上，这种方法就会把以后的结果都预测为朝上，这明显不合理。
接下来扩展到N次试验中m次硬币向上的概率，μ为控制参数，二项分布

继续使用贝叶斯方法推断。第二步，引入一个和似然函数共轭（参数成比例）的先验分布，是参数μ的分布。a和b是超参数，即参数μ的分布的参数。

贝叶斯第三步，先验分布乘以似然函数（概率）得到后验分布。没有直接乘（可能因为参数和概率混在一起，算起来很麻烦？），而是先得到

得到变量的部分。通过和Beta分布比较，还有后验分布正则化的条件，得到系数。m是硬币正面朝上次数，l是正面朝下次数。

所以和先验分布比较，在一次抛硬币之后a增加了m，b增加了l，超参数变化对应观测的影响，叫观测的影响数。

这个方法可以把得到的后验分布当做先验分布，然后再加入一组观测数据的影响。可以不断观测，不断优化这个函数，直到接近真实的分布。可以用于流式数据的学习还有在获得所有数据前就要给出预测的学习。

之前得到的后验分布只是μ的分布，实际要的是预测x，所以还有第四步，

p(μ|D)就是刚才得到的后验分布。第一个p(x = 1|D)是概率，因为μ是变量，又得到了他的分布，所以第二个式子是在所有可能μ的情况下对应p(x = 1|D)的值，利用概率乘以概率，结果可以理解为μ根据已有数据集D所有可能分布的均值，x=1 根据这个均值的概率。
后验均值总是在先验均值和最大似然估计之间，当数据集趋向于无穷时，后验均值和最大似然估计相等。

由此可以得到贝叶斯学习的一个性质，当数据集数量增大时，关于参数μ的后验分布的不确定性也开始减小，μ的范围也越来越小。
他给出了具体证明。

θ是参数，D是数据集，一系列计算得到两式。。第一项是后验方差的平均值，第二项是平均值的方差，由于方差是正数，可以得到平均后验方差总是比先验方差小。当然这里是平均，在局部有可能出现比先验方差大的情况。

2.2 多项式变量
一个变量不止两种可能，有多种可能。可以用一种向量形式表示

x = (x1, x2, x3, x4, x5, x6)T 。六种可能，当xk发生时对应的值为1，其他为0。
对应的大写x的分布如下，μk代表第k个状态对应参数。连乘里面没有发生的状态幂次为0直接消掉。（连乘是想出来的，之前没见过。。）

开始贝叶斯推断第一步，给定数据集D，包含向量x1到xN，构建似然函数，既在已有μ条件下的概率

mk决定这个概率，是充分统计数。
似然函数取对数后，通过拉格朗日乘数法和μk加和为一的条件，算出

同2.1，扩展到多次结果联合的概率，叫做多项式分布

第二步，引入共轭先验，狄利克雷分布（这里说通过参考多项式分布的式子引入，之前说是参考似然函数分布的式子引入，应该前面的写法是对的。总体感觉像是凭空引入的，为了方便拼凑出来，没什么物理意义，只是对照似然找到这么一个方便计算的μ的分布罢了）

超参数

第三步，μ先验分布乘以似然函数得到μ的后验分布，同2.1，认为后验分布也是狄利克雷分布

αk的变化代表观测到xk对分布的影响，是观测的影响数。

2.3 高斯分布
从这里开始数学要求提高，要懂得多元微积分，对矩阵求导，加上线性代数忘了很多，矩阵性质不熟悉，所以遇到很大困难。这一小节卡了12天左右，之前没有做题，补做题目的时间花了很多，本来是边看边做题，想要做题目辅助发现很多数学知识缺失，一下发现很多不懂或者忘记的数学概念，所以就一直卡着。
介绍多维高斯分布

x是D维向量，Σ是D×D协方差矩阵，维度之间的协方差的矩阵，μ是D维均值向量（第一个不懂又没有介绍的数学概念）。

高斯分布有很多很好的性质，在很多地方出现。一个性质是对于一组给定数据集，高斯分布是使之熵最大的分布，从熵的角度来理解，这样的分布保留的信息最多。
第二个性质，当考虑随机变量的和时，由中心极限定理，随机变量的数目越大，和的分布越接近高斯分布，在实际应用中这个接近很快，从图上看随机变量到十个时就很接近了。

现在回到多维高斯分布，引入马氏距离概念（第二个没有学过的数学概念），μ到x的马氏距离为

当Σ为单位矩阵时马氏距离退化成欧几里得距离（常用距离），Δ决定多维高斯分布的变化。
通过一系列线性代数的变换（还不会，过三天会了），可以得到

从式子上，可以把{yi}解读为基于正交向量ui的新的坐标系，通过把原坐标系xi旋转到μ方向得到。
（这个x的坐标系有什么物理意义，有什么源头，作用？感觉像是凭空冒出来一样，对于一个高斯分布来说怎么体现在这样坐标系上面呢，对于一个多维的高斯分布，这种坐标系确实能很方便的表示出点的排列，这个是用这种坐标系一个原因，比如多维的高斯分布就可以看成是分布在一个超椭圆体表面的数据点的集合）

（这个椭圆体的表面代表什么，和高斯分布的概率密度的关系是什么，这也没搞清楚，现在看貌似是这个高斯分布的点构成了这个椭圆，所以才使用这种坐标系，这种坐标系体现了数据点的分布的关系，和概率的关系要怎么体现呢？就是我知道了数据点分布在椭圆上，那数据点的概率也不懂怎么求）

在x坐标系到y坐标系的变换得到雅各宾矩阵（第三个没头没尾的数学概念），

Uji是UT的元素，UT的列为向量ui，ui是协方差矩阵的单位特征向量。
通过一系列变换（不懂，现在貌似懂了），得到y坐标系下高斯分布的形式

分布的均值和协方差分别为

高斯分布的缺点：一个高斯分布的独立参数，算上协方差矩阵的D(D + 1)/2，还有μ的D个独立参数，总共有D(D + 3)/2个独立参数，数量太多，对于大的数据集计算量就会很大。一个方法是限制协方差矩阵，让他只能是对角矩阵或者单位矩阵。这种方法限制了模型的形式，削减了高斯分布最大熵的优良性能。如图

另一个缺点，高斯分布是单峰的分布，即只有一个最大值，如果一个分布有多个最大值就很难使用高斯分布模拟。在后文中，引入离散隐变量，进而引入混合高斯分布解决这个问题。类似方法引入连续隐变量，减少参数大小同时模型模拟能力不减弱。
两种方法都有很大的应用，例如马尔科夫随机场和线性动力系统。可以用概率图模型来表示这种方法的结构。ps:以上这一段上周日写的，本来准备周五发，可是写到笔记上面的图片没办法直接复制过来，得一个一个另存为，粘贴太麻烦。。字体的设置也有问题，这里的字体设置只有1到7，而且都太大了

2.3.1 条件高斯分布
多元高斯分布有一个重要性质，如果两组变量的联合分布是高斯分布，那么他的条件分布和边缘分布也是高斯分布。
比如一个D维高斯分布，N(x|μ,Σ)，把x分为

xa占M维，xb占D-M维。均值和协方差可以分为

协方差矩阵是对称矩阵，这里再引入精度，即协方差矩阵的逆矩阵

现在求xa在xb条件下的分布，一系列变换得到

均值μa|b是xb的线性方程，与xa无关，协方差矩阵也和xa无关，所以这叫线性高斯模型。

2.3.2 边缘高斯分布
单求xa的边缘高斯分布，利用下式

具体计算不写，思路和之前一样，展开马氏距离的式子，在所求变量的二次项xTa（）xa，的括号中间，这个二次项的系数是协方差矩阵，如果是一次项，系数是均值，常数不管。得到

分布可以写为

2.3.3 高斯分布的变量的贝叶斯定理
给定边缘高斯分布p(x)和条件高斯分布p(y|x)，使用之前的结果可以求得p(x|y)，p(y)

2.3.4 高斯分布最大似然
给定数据集X = (x1, . . . , xN)T，求其似然函数。类似2.2的步骤，条件概率取对数

对μ求导得到期望的似然，用一个比较复杂没看懂的方法，求协方差矩阵，最后得到

发现估计协方差矩阵的期望和真实的协方差矩阵有偏差，修正以后得到

2.3.5 逐次估计
通过最大似然求高斯分布的参数，可以看成一个逐步估计的形式。考虑最大似然均值，摘出第N项数据的贡献，可以得到

可以看出，在观测第xn数据之后，把之前由N-1个数据估计的均值，往偏差(xN −μ(N−1)ML )的方向移动一点，得到N个数据估计的均值。

接下来提供一个在线学习更普遍的步骤。给出一个参数θ和z构成的联合分布，z在θ下的条件期望可以构成一个确定性函数（不理解什么叫确定式函数）

目标是找到使函数等于0的根（这和在线学习有什么关系呢？为什么要找到它的根？？？）
如果有很多数据，可以直接给这个函数建模，但是在线学习，需要逐步给出数据。提到了Robbins-Monro给的解决办法，定义
上标N是第N次观测，aN是自己定义的数字，满足三个限制条件。
接下来回到高斯分布，由似然的定义

经过交换，对N取极限，可以得到

上面这步没毛病，然后就可以看到这个期望也是θ的一个函数，然后找θ的最大似然，就是找这个期望等于0的θ的根，所以这时候可以套用Robbins-Monro的定义得到

回到之前均值最大似然估计的问题，如果把第N次θ当成是第N次最大似然估计的均值，这就是这个方法的一个特例，可以得到

z本身也是一个高斯分布，如下图。

2.3.6 高斯分布的贝叶斯推断
之前通过介绍了通过最大似然方法推测高斯分布的均值和协方差，接下来贝叶斯方法推断，先考虑一维高斯分布求方差和均值。
主要分为以下几种

给定方差和数据集，推断均值μ。
给定均值μ和数据集，推断方差。
给定数据集，均值和精度未知，求两个参数的共轭先验(为什么求共轭先验？不接着求了？），得到的共轭先验名叫正态伽马分布

步骤都一样。第一步求数据集在要推断的参数的似然，第二步根据前一步找共轭的参数的先验分布，第三步找在数据集条件下参数的分布。

多维高斯分布，已知均值不知精度，求精度的共轭先验，得到分布命名为Wishart分布。求方差的共轭先验，分布名为逆Wishart分布。均值精度都未知，求它们联合分布的共轭先验，得到分布名为正态Wishart分布。

2.3.7 t分布
如果给定一个单峰高斯分布和一个精度的伽马分布相乘，对精度积分，可以得到x的边缘分布。经过一系列转换得到

ν是自由度，当ν=1是t分布变为柯西分布，ν趋向于无穷t分布变为高斯分布
从下图中可以看出t分布的优点，在于t分布受异常数据点的影响更小，高斯分布则比较敏感，这种性质翻译为鲁棒性。字面上理解就是t分布比较坚硬，虽然都是材料可以塑造成某个形态，但是t分布比较坚硬，塑造主要形态以后改变形态比较难。

鲁棒性在回归问题里也很重要，因为最小二乘法本质上也是求高斯分布的最大似然，所以使用t分布更好。

YaoWeiJie · 发表于 2016-12-2 11:55:43

zhupengfei · 发表于 2016-12-3 11:22:41

主要讲前两张的内容就可以

		自动登录	找回密码
密码			注册

第二章概率分布

本帖子中包含更多资源

相关帖子

本帖子中包含更多资源

第二章 概率分布

本帖子中包含更多资源

相关帖子

本帖子中包含更多资源

第二章概率分布