第一章绪论

YaoWeiJie · 发表于 2016-11-13 19:23:52

本帖最后由 YaoWeiJie 于 2016-11-27 20:48 编辑

模式识别与机器学习笔记

第一章练习还没做完，暂时写有疑问和有印象觉得重要的地方。
第一章绪论

模式识别主要是关于通过计算机算法自动从数据中挖掘某种规律，利用规律更好地做相应的事情。比如分类。这里用一个识别手写数字图片的例子说明了几个概念。

训练集：通过观察得到的已有的数据，用来调整模型的参数训练模型。应该也可以叫输入向量。
目标向量：代表想要识别的东西，比如这里代表某个数字的图片的像素的集合。
学习，训练：寻找一个可以从训练集映射到目标向量的函数，构建模型的过程
测试集：新的不同于训练集的数据，用来测试函数的结果好坏
泛化：用训练出的函数识别新的数据（如测试集）的能力
预处理：在训练之前先对训练集进行某些处理，使之统一格式，更好地匹配问题的性质，加快计算速度，使识别更容易等等。这个过程要注意不要丢失重要数据。
监督学习：输入向量有对应结果的学习。在把输入向量归类到有限个对应结果的监督学习，叫分类问题。归类到一个连续性的结果里面，叫回归问题，比如从一张图的几个点找到所属的曲线。
无监督学习：找到数据中的相同类型，聚类。或者划分输入空间，密度估计。或者为了图像化，把高维的数据降到二维或者三维。
加强学习：在特定情境下找到合适的动作使结果最有利，比如下棋，每一步对应的价值不同，要分配好每一步的价值。加强学习要找好探索和挖掘的平衡，探索是寻找新的策略，挖掘是使用当前经验中高分策略。
1.1 曲线拟合问题

过拟合的概念，如果模拟只是针对已有的数据集，没有考虑是模拟的性质，有可能模拟已有的数据集很好很精确，但是对应于其他的结果差很多。这里表现在使用多项式模拟有噪声的点对应的曲线，项数多起来，项数对应的系数大小可以随便变化，曲线变化就太剧烈，可能因为高项数的系数组合可能性太多，随便一种都可以吻合已有的数据集，但是吻合特定曲线的可能性变低了。

解决办法： 1、提高数据集数据的数量 2、正则化：在衡量差值的式子里面，加入和系数关联的惩罚项，解决系数太大导致变化剧烈的问题。这里提到岭回归，什么二次方程正则化矩阵，不知道是什么。

正则化是利用惩罚项控制模型复杂度，减小拟合产生的误差。控制复杂度还有一个办法，是把已有数据分割一部分作为验证集，但是这样一般比较浪费。

1.2 概率论

概率论相关的东西，很简单不用写。

这里遇到第一个重大的问题，不算疑惑。

这个公式是表示连续型随机变量的概率密度，可是它把概率的p(x)符号和概率密度混用，所以后面很多都搞不清楚。做练习的时候才发现这个问题。后面也有很多混淆，这两个是不一样的概念吧。

1.2.3

这一节主要是讲两个思想，一个是频率学家思想，即通过不断重复一个事情的次数，通过大数定律得到一个事情的概率，衡量事情的函数的参数事先通过某个方法确定不会再改变。

一个是贝叶斯思想，对于没办法重复的事件，没办法通过频率学家方法重复N次得到概率，但是可以通过一些侧面的相关数据评估或者说推断事件的概率，并且通过不断更新的侧面数据修正函数的参数，得到更好的函数，推测出的概率更准。这是贝叶斯观点。

前者参数是固定的确定的，重要的是找什么分布（这句话有点不太懂，后者不也是找分布吗）后者参数是不确定的，需要不断通过已有数据确定

这里说到在有关不确定的问题上面概率论可以是布尔代数的延伸。可以用概率来表示可信度。不知道什么意思。

从知乎上看到一些很好的解释，略加删减修改，现在懂得两者的差别了

简单地说，频率学派与贝叶斯学派探讨「不确定性」这件事时的出发点与立足点不同。频率学派从客观角度出发，试图直接为客观事物本身建模，即事件A在独立重复试验中发生的频率趋于极限p，那么这个极限就是该事件的概率。这个概率是客观的概率，和人怎么想没有关系，是外在于人的认识而独立存在的。而事件的模型对应的参数是客观存在且固定，出发点就是去寻找这个固定的值，类似柏拉图的理念论，本体论。

可是实际上人没办法真的做无数次实验，因为无数本身就是一个只能无限逼近，不能达到的概念。从实际操作和认识的角度来讲就不现实。所以从人的认识角度来说，只是重复有限次数，然后也得到一个概率，这是自己认识的概率，是主观的，如果重复次数大到一定程度，人就相信这个概率客观上就是这样。贝叶斯观点就是从人的认识角度出发，构造一套在贝叶斯概率论的框架下可以对不确定知识的认识方法。贝叶斯观点定义的概率，是知识体系对一个事情发生可能性的估计，是主观的概率，从经验、自身观察的角度出发对一个事情的估计。

背后的理念应该是康德的不可知论和经验论，人只能认识感觉经验和现象范围内的东西，认识只能局限在这个范围之内，通过不断更新经验和感觉，不断更新对事物的认识，可以无限逼近事物的本质，但是只是对于事物的本质的认识到了一个相对高的层面，也许新的经验出现，会打破原来的认识，本质。这就需要有足够的观测或者经验，才能确保主观推断足够准确，符合实际需要。贝叶斯概率论给出的就是一套通过理性，主观推断事件的框架和方法。

在构建模型上面，贝叶斯学派一开始对参数有一个直觉和经验上面的估计，然后根据新的到的经验，调整对参数值的推断的分布，参数可能有无数种情况。频率学派一开始就认为有一个固定的参数，然后从这个角度出发构建模型。

参考链接：
https://www.zhihu.com/question/20587681/answer/17435552
https://www.zhihu.com/question/21134457/answer/40753337

https://www.zhihu.com/question/21134457/answer/25490188

来源：知乎

在贝叶斯观点下，疑惑出现了，公式 (1.43)

文章里面说p(w)是分布，p(D|w)是条件概率，p(w|D)是后验概率。后面又说p(D|w)叫似然函数，p(w|D)是后验分布，所以要p(D)来确保它积分为1，p(w|D)怎么又变成分布了？似然函数还算是概率吗？如果这个公式不是概率相乘的话怎么就会成立呢？之前还在讲概率，现在直接变成了概率乘以分布就让人很困惑。还有就是不知道p(D)是分布还是概率。

p(D|w),似然函数，表示在不同的参数向量设置下，以观测到的数据推测参数的大小，用观测到的数据模拟已知模型

1.2.4 高斯分布

公式1.52

疑惑：多维高斯分布的公式，这个公式不知道怎么得到的，也不知道怎么对向量求导，对这个公式进行向量x的求导可以得到众数μ。练习1.9有提到，看不懂，还有使用什么C.19也不知道是什么

1.4 维度灾难

指的是如果有多个输入向量，想要通过划分区域，找区域中点最多的类型，来归类空间中的一个点。区域数量会随着向量个数呈指数型增长。最后浪费很多计算资源。

1.5 决策论

把正确和错误，决策的结果用数学函数衡量，这样可以衡量每个决策对应的损失，然后最小化损失函数得到好的决策。

可以加入拒绝项，在困难问题上有选择的不进行决策。

后面讲了推断和决策两个阶段，和对应的三种策略，看不懂三种策略有什么差别，好像都是一样的，缺乏实例。

1.6 信息论

信息量可以是惊奇程度的度量，如果知道的是已知的没有变化的东西，可以说没什么信息量，没什么新的信息。所以发生概率越高的事件信息量越小，概率为一的事件没有新的信息。

信息量是概率以二为底的负对数，这样信息的单位是二进制的数。单位名比特。信息量的数学期望被称为熵，和热力学熵的概念对应。

互信息，相对熵。

相对熵是两种分布不相似度的度量，互信息：
I[x, y] = H[x] − H[x|y] = H[y] − H[y|x]
Y事件为X事件提供的不确定度的削减的度量。

YaoWeiJie · 发表于 2016-11-15 22:33:58

分布和概率现在想想是没什么关系，对于离散型随机变量是概率，对于连续型是概率密度，最后都是分布

		自动登录	找回密码
密码			注册

第一章绪论

本帖子中包含更多资源

相关帖子

浏览过的版块

第一章 绪论

本帖子中包含更多资源

相关帖子

浏览过的版块

第一章绪论