给定样本 ,其中 , 为样本 的第 个特征,特征有 种。
线性模型(linear model
) 的形式为: 。
其中 为每个特征对应的权重生成的权重向量。
线性模型的优点是:
很多功能强大的非线性模型(nolinear model
) 可以在线性模型的基础上通过引入层级结构或者非线性映射得到。
给定数据集 ,其中 。
线性回归问题试图学习模型 :
该问题也被称作多元线性回归(
multivariate linear regression
)
对于每个 ,其预测值为 。采用平方损失函数,则在训练集 上,模型的损失函数为:
优化目标是损失函数最小化,即: 。
可以用梯度下降法来求解上述最优化问题的数值解,但是实际上该最优化问题可以通过最小二乘法获得解析解。
令:
则有:
令:
则:
令 。为求得它的极小值,可以通过对 求导,并令导数为零,从而得到解析解:
当 为满秩矩阵时,可得: 。
其中 为 的逆矩阵。
最终学得的多元线性回归模型为: 。
当 不是满秩矩阵。此时存在多个解析解,他们都能使得均方误差最小化。究竟选择哪个解作为输出,由算法的偏好决定。
比如 (样本数量小于特征种类的数量),根据 的秩小于等于 中的最小值,即小于等于 (矩阵的秩一定小于等于矩阵的行数和列数); 而矩阵 是 大小的,它的秩一定小于等于 ,因此不是满秩矩阵。
常见的做法是引入正则化项:
正则化:此时称作Lasso Regression
:
为正则化系数,调整正则化项与训练误差的比例。
正则化:此时称作Ridge Regression
:
为正则化系数,调整正则化项与训练误差的比例。
同时包含 正则化:此时称作Elastic Net
:
其中:
多元线性回归算法:
输入:
输出模型:
算法步骤:
令:
求解:
最终学得模型:
考虑单调可微函数 ,令 ,这样得到的模型称作广义线性模型 (generalized linear model
)。
其中函数 称作联系函数 (link function
) 。
对数线性回归是广义线性模型在 时的特例。即: 。
如果给定 和 的条件概率分布 服从指数分布族,则该模型称作广义线性模型。
指数分布族的形式为:。
高斯分布:
令:
则满足广义线性模型。
伯努利分布(二项分布, 为 0 或者 1,取 1的概率为 ):
令:
则满足广义线性模型。
根据 ,有 。 则得到:
因此 logistic
回归属于伯努利分布的广义形式。
假设有 个分类,样本标记 。每种分类对应的概率为 。则根据全概率公式,有
定义 为一个 维的列向量:
定义示性函数 : 表示属于 分类; 表示不属于 分类。则有:
构建概率密度函数为:
令
则有:
令 ,则满足广义线性模型。
根据:
则根据:
于是有:
.
考虑二分类问题。
给定数据集 。
考虑到 取值是连续的,因此它不能拟合离散变量。
可以考虑用它来拟合条件概率 ,因为概率的取值也是连续的。
但是对于 (若等于零向量则没有什么求解的价值), 取值是从 ,不符合概率取值为 ,因此考虑采用广义线性模型。
最理想的是单位阶跃函数:
但是阶跃函数不满足单调可微的性质,不能直接用作 。
对数几率函数(logistic function
)就是这样的一个替代函数:
这样的模型称作对数几率回归(logistic regression
或logit regression
)模型。
由于 ,则有:
比值 表示样本为正例的可能性比上反例的可能性,称作几率(odds
)。几率反映了样本作为正例的相对可能性。
几率的对数称作对数几率(log odds
,也称作logit
)。
对数几率回归就是用线性回归模型的预测结果去逼近真实标记的对数几率。
虽然对数几率回归名字带有回归,但是它是一种分类的学习方法。其优点:
给定训练数据集 ,其中 。可以用极大似然估计法估计模型参数,从而得出模型。
为了便于讨论,将参数 吸收进 中。
令:
令
则似然函数为: 。
对数似然函数为:
由于 ,因此:
则需要求解最优化问题:
最终 logistic
回归模型为:
logistic
回归的最优化问题,通常用梯度下降法或者拟牛顿法来求解。
可以推广二分类的 logistic
回归模型到多分类问题。
设离散型随机变量 的取值集合为: ,则多元 logistic
回归模型为:
其中 。
其参数估计方法类似二项 logistic 回归模型。
线性判别分析Linear Discriminant Analysis:LDA
基本思想:
设 表示类别为 0
的样例的集合,这些样例的均值向量为 ,这些样例的特征之间协方差矩阵为 (协方差矩阵大小为 )。
设 表示类别为 1
的样例的集合,这些样例的均值向量为 ,这些样例的特征之间协方差矩阵为 (协方差矩阵大小为 )
假定直线为: ,其中