机器学习的几个概念（转载）

zouquan · 发表于 2012-3-14 08:47:23

机器学习：主要解决分类、回归、聚类3类任务。分类和回归的本质是让机器自动的学习模型参数，然后根据学习到的模型来预测新的数据。聚类是自动发现数据集合中的一些规律。
分类：根据特征x，来确定类别y。
回归：本质上是找一个模型来拟合数据变化规律。常用的是线性回归等方法。
聚类：本质上是找到数据集合中的一个个小的聚簇cluster。常见的是k近邻等方法。
广义线性模型：定义y为观测值，x为特征。一般的分类或回归问题都是计算p(y|x)。可以认为y符合某种分布，x是y的属性，当x确定后我们要计算出y在这个分布下的值。常见的几种分布（高斯gaussian分布、贝努力bernoulli分布、多项式multinomial分布）都可以转化为指数函数形式，这个指数函数的输入是x的线性变化后的值θx。把模型通用化得表示为一个线性变化后的指数模型，就可以用最大似然函数来求解模型里面的参数。

高斯分布和最小二乘的关系：可以认为y值是在θx附近符合高斯分布的数值，用指数函数的形式表示这个高斯概率分布。用最大似然求解参数时，等价于求解（y-θx）的平方和最小。
梯度下降：就是求一阶导下降的方向，然后顺着这个方向找到一阶导为0的点。
牛顿方法：求解最优化问题的一种方法。简单说就是迭代的求二阶导0值，来找到一阶导为0的点。
最大似然：当模型确定后，使得已知数据的发生概率最大。
贝叶斯公式：p(y|x)=p(x|y)*p(y)/p(x)。根据这个公式，就可以在p(x|y)和p(y|x)之间进行相互转化。另一个经常和贝叶斯一起使用的公式是p(x)=∑p(x|y)（对所有的y），用来求变量单独的出现概率。
局部加权算法（locally weighted regression algorithm）：把整个区间的预测问题，转化为局部区间的预测问题，然后使用临近的点做回归预测。
最大熵：保留未知情况的所有概率可能。最大熵模型的优化目标为选择熵最大的模型，约束条件是特征的期望分布等于真实分布，不对未知情况做额外假设。最大熵模型求解最优化问题时，特征的期望概率与真实概率一致。期望概率是标注数据中的分布，公式为p'(f)=∑p'(x)*p(y|x)*f(x,y)。真实概率为p(f)=∑p'(x,y)f(x,y)。其中，p'(x)，p'(x,y)都是标注数据中的实际分布。最大熵模型优化时要保证条件概率p(y|x)等于经验概率p'(y|x)。也就是只用数据中已有的分布作为先验知识进行约束。
监督学习（supervised learning）和无监督学习（unsupervised learning）：前者有标注数据，后者没有。

神经网络(neural network)：每个神经元可看作是一个指数函数，不同的指数函数处理不同的边界识别问题。神经网络的泛化能力比较好，能很好的处理各种噪声干扰。难点在于对神经元函数的选取，隐藏单元的控制，学习率的设定。另外，神经网络很容易收敛到局部最优解。

最右边界算法（max margin algorithm）：本质上是求解一个与决策平面垂直的最优的法向量。

		自动登录	找回密码
密码			注册

机器学习的几个概念 （转载）

浏览过的版块

机器学习的几个概念（转载）