人工智能基础

梯度下降公式的推导

目标是最小化一个可微函数

函数 附近的泰勒展开式为

函数 附近的泰勒展开式为

保留一阶泰勒展开,得到

其中 是要移动的方向,为了使得 ,需要满足

表示移动方向与梯度方向相反,自然选择

其中 。则参数更新规则为


以回归模型为例,用 的线性函数近似

其代价函数为

偏导数计算如下

则更新规则为

这种方法需要再执行单次更新前扫描整个训练集,被称为 批量梯度下降

线性回归

设模型的预测值为 ,观测值为 ,则噪声 。噪声服从参数为 的正态分布,即 ,其概率密度函数为

单个样本 出现的概率等价于噪声取值为 的概率,将 带入噪声的概率密度函数得到单个样本的概率密度

其中 表示给定 和参数 的条件下,观测到 的概率密度,核心是模型参数 的函数。

若有 个样本 ,各个样本之间相互独立,则所有样本同时出现的概率为

于是,最大化似然函数 等价于最小化 ,即最小二乘法的损失函数,同时也证明了在噪声满足正态分布的条件下,最小二乘与最大似然等价。

对于单变量的线性回归,,带入到均方误差的表达式中对 求偏导, 极值点即为线性回归的最优解

对于多变量的线性回归,

定义损失函数为

,在 的逆矩阵存在的前提下,得到参数的最优解为

参考资料

人工智能基础课

cycleuser/Stanford-CS-229