机器学习和生物信息学实验室联盟

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 3706|回复: 1
打印 上一主题 下一主题

第一章 绪论

[复制链接]
跳转到指定楼层
楼主
发表于 2016-11-13 19:23:52 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 YaoWeiJie 于 2016-11-27 20:48 编辑

模式识别与机器学习笔记

第一章练习还没做完,暂时写有疑问和有印象觉得重要的地方。
第一章 绪论

模式识别主要是关于通过计算机算法自动从数据中挖掘某种规律,利用规律更好地做相应的事情。比如分类。这里用一个识别手写数字图片的例子说明了几个概念。

训练集:通过观察得到的已有的数据,用来调整模型的参数训练模型。应该也可以叫输入向量。
目标向量:代表想要识别的东西,比如这里代表某个数字的图片的像素的集合。
学习,训练:寻找一个可以从训练集映射到目标向量的函数,构建模型的过程
测试集:新的不同于训练集的数据,用来测试函数的结果好坏
泛化:用训练出的函数识别新的数据(如测试集)的能力
预处理:在训练之前先对训练集进行某些处理,使之统一格式,更好地匹配问题的性质,加快计算速度,使识别更容易等等。这个过程要注意不要丢失重要数据。
监督学习:输入向量有对应结果的学习。在把输入向量归类到有限个对应结果的监督学习,叫分类问题。归类到一个连续性的结果里面,叫回归问题,比如从一张图的几个点找到所属的曲线。
无监督学习:找到数据中的相同类型,聚类。或者划分输入空间,密度估计。或者为了图像化,把高维的数据降到二维或者三维。
加强学习:在特定情境下找到合适的动作使结果最有利,比如下棋,每一步对应的价值不同,要分配好每一步的价值。加强学习要找好探索和挖掘的平衡,探索是寻找新的策略,挖掘是使用当前经验中高分策略。
1.1 曲线拟合问题

过拟合的概念,如果模拟只是针对已有的数据集,没有考虑是模拟的性质,有可能模拟已有的数据集很好很精确,但是对应于其他的结果差很多。这里表现在使用多项式模拟有噪声的点对应的曲线,项数多起来,项数对应的系数大小可以随便变化,曲线变化就太剧烈,可能因为高项数的系数组合可能性太多,随便一种都可以吻合已有的数据集,但是吻合特定曲线的可能性变低了。

解决办法: 1、提高数据集数据的数量 2、正则化:在衡量差值的式子里面,加入和系数关联的惩罚项,解决系数太大导致变化剧烈的问题。这里提到岭回归,什么二次方程正则化矩阵,不知道是什么。

正则化是利用惩罚项控制模型复杂度,减小拟合产生的误差。控制复杂度还有一个办法,是把已有数据分割一部分作为验证集,但是这样一般比较浪费。

1.2 概率论

概率论相关的东西,很简单不用写。

这里遇到第一个重大的问题,不算疑惑。



这个公式是表示连续型随机变量的概率密度,可是它把概率的p(x)符号和概率密度混用,所以后面很多都搞不清楚。做练习的时候才发现这个问题。后面也有很多混淆,这两个是不一样的概念吧。

1.2.3

这一节主要是讲两个思想,一个是频率学家思想,即通过不断重复一个事情的次数,通过大数定律得到一个事情的概率,衡量事情的函数的参数事先通过某个方法确定不会再改变。

一个是贝叶斯思想,对于没办法重复的事件,没办法通过频率学家方法重复N次得到概率,但是可以通过一些侧面的相关数据评估或者说推断事件的概率,并且通过不断更新的侧面数据修正函数的参数,得到更好的函数,推测出的概率更准。这是贝叶斯观点。

前者参数是固定的确定的,重要的是找什么分布(这句话有点不太懂,后者不也是找分布吗)后者参数是不确定的,需要不断通过已有数据确定

这里说到在有关不确定的问题上面概率论可以是布尔代数的延伸。可以用概率来表示可信度。不知道什么意思。

从知乎上看到一些很好的解释,略加删减修改,现在懂得两者的差别了


简单地说,频率学派与贝叶斯学派探讨「不确定性」这件事时的出发点与立足点不同。频率学派从客观角度出发,试图直接为客观事物本身建模,即事件A在独立重复试验中发生的频率趋于极限p,那么这个极限就是该事件的概率。这个概率是客观的概率,和人怎么想没有关系,是外在于人的认识而独立存在的。而事件的模型对应的参数是客观存在且固定,出发点就是去寻找这个固定的值,类似柏拉图的理念论,本体论。

可是实际上人没办法真的做无数次实验,因为无数本身就是一个只能无限逼近,不能达到的概念。从实际操作和认识的角度来讲就不现实。所以从人的认识角度来说,只是重复有限次数,然后也得到一个概率,这是自己认识的概率,是主观的,如果重复次数大到一定程度,人就相信这个概率客观上就是这样。贝叶斯观点就是从人的认识角度出发,构造一套在贝叶斯概率论的框架下可以对不确定知识的认识方法。贝叶斯观点定义的概率,是知识体系对一个事情发生可能性的估计,是主观的概率,从经验、自身观察的角度出发对一个事情的估计。


背后的理念应该是康德的不可知论和经验论,人只能认识感觉经验和现象范围内的东西,认识只能局限在这个范围之内,通过不断更新经验和感觉,不断更新对事物的认识,可以无限逼近事物的本质,但是只是对于事物的本质的认识到了一个相对高的层面,也许新的经验出现,会打破原来的认识,本质。这就需要有足够的观测或者经验,才能确保主观推断足够准确,符合实际需要。 贝叶斯概率论给出的就是一套通过理性,主观推断事件的框架和方法。

在构建模型上面,贝叶斯学派一开始对参数有一个直觉和经验上面的估计,然后根据新的到的经验,调整对参数值的推断的分布,参数可能有无数种情况。频率学派一开始就认为有一个固定的参数,然后从这个角度出发构建模型。





参考链接:
https://www.zhihu.com/question/20587681/answer/17435552
https://www.zhihu.com/question/21134457/answer/40753337

https://www.zhihu.com/question/21134457/answer/25490188

来源:知乎



在贝叶斯观点下,疑惑出现了,公式 (1.43)


文章里面说p(w)是分布,p(D|w)是条件概率,p(w|D)是后验概率。后面又说p(D|w)叫似然函数,p(w|D)是后验分布,所以要p(D)来确保它积分为1,p(w|D)怎么又变成分布了?似然函数还算是概率吗? 如果这个公式不是概率相乘的话怎么就会成立呢?之前还在讲概率,现在直接变成了概率乘以分布就让人很困惑。还有就是不知道p(D)是分布还是概率。

p(D|w),似然函数,表示在不同的参数向量设置下,以观测到的数据推测参数的大小,用观测到的数据模拟已知模型


1.2.4 高斯分布

公式1.52


疑惑:多维高斯分布的公式,这个公式不知道怎么得到的,也不知道怎么对向量求导,对这个公式进行向量x的求导可以得到众数μ。练习1.9有提到,看不懂,还有使用什么C.19也不知道是什么

1.4 维度灾难

指的是如果有多个输入向量,想要通过划分区域,找区域中点最多的类型,来归类空间中的一个点。区域数量会随着向量个数呈指数型增长。最后浪费很多计算资源。

1.5 决策论

把正确和错误,决策的结果用数学函数衡量,这样可以衡量每个决策对应的损失,然后最小化损失函数得到好的决策。

可以加入拒绝项,在困难问题上有选择的不进行决策。

后面讲了推断和决策两个阶段,和对应的三种策略,看不懂三种策略有什么差别,好像都是一样的,缺乏实例。

1.6 信息论

信息量可以是惊奇程度的度量,如果知道的是已知的没有变化的东西,可以说没什么信息量,没什么新的信息。所以发生概率越高的事件信息量越小,概率为一的事件没有新的信息。

信息量是概率以二为底的负对数,这样信息的单位是二进制的数。单位名比特。信息量的数学期望被称为熵,和热力学熵的概念对应。

互信息,相对熵。

相对熵是两种分布不相似度的度量,互信息:
I[x, y] = H[x] − H[x|y] = H[y] − H[y|x]
Y事件为X事件提供的不确定度的削减的度量。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享
回复

使用道具 举报

沙发
 楼主| 发表于 2016-11-15 22:33:58 | 只看该作者
分布和概率现在想想是没什么关系,对于离散型随机变量是概率,对于连续型是概率密度,最后都是分布
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

机器学习和生物信息学实验室联盟  

GMT+8, 2024-11-23 09:20 , Processed in 0.104701 second(s), 21 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表