人工智能基础

梯度下降公式的推导

目标是最小化一个可微函数

函数 附近的泰勒展开式为

函数 附近的泰勒展开式为

保留一阶泰勒展开,得到

其中 是要移动的方向,为了使得 ,需要满足

表示移动方向与梯度方向相反,自然选择

其中 。则参数更新规则为


以回归模型为例,用 的线性函数近似

其代价函数为

偏导数计算如下

则更新规则为

这种方法需要再执行单次更新前扫描整个训练集,被称为 批量梯度下降

线性回归

设模型的预测值为 ,观测值为 ,则噪声 。噪声服从参数为 的正态分布,即 ,其概率密度函数为

单个样本 出现的概率等价于噪声取值为 的概率,将 带入噪声的概率密度函数得到单个样本的概率密度

其中 表示给定 和参数 的条件下,观测到 的概率密度,核心是模型参数 的函数。

若有 个样本 ,各个样本之间相互独立,则所有样本同时出现的概率为

于是,最大化似然函数 等价于最小化 ,即最小二乘法的损失函数,同时也证明了在噪声满足正态分布的条件下,最小二乘与最大似然等价。

对于单变量的线性回归,,带入到均方误差的表达式中对 求偏导, 极值点即为线性回归的最优解

对于多变量的线性回归,

定义损失函数为

,在 的逆矩阵存在的前提下,得到参数的最优解为

泛化和正则

泛化

偏差-方差均衡

训练集输入 是随机选择的,输出 生成,其中 表示观测噪声。测试样本 也有相同的输入-输出映射 ,其中 ,本质上,我们的目标是恢复函数 .

将模型的 偏差(bias) 定义为即使拟合到无限大的训练数据集,曾存在的测试误差。在这种情况下,表现为欠拟合。

训练集中的虚假信息大部分是由于观测噪声 引起的,拟合这些虚假信息会导致模型具有较大的测试误差,将其定义为模型的方差。

通常,偏差和方差之间存在权衡。如果模型过于简单且参数很少,那么它可能具有较大的偏差(但方差较小),并且通常会遭受欠拟合;如果它过于复杂且参数很多,那么它可能遭受较大的方差(但偏差较小),因此会过拟合。

  • 对于回归问题的数学分解——偏差-方差权衡

抽取一个训练集 ,其中 ,在该数据集上训练一个模型记为 ,取测试样本 ,使得 ,并测量测试误差的期望 下面将 分解, 抽取无限多个数据集作为训练集,对他们在 上的预测进行平均而获得的模型定义 。进一步分解

如前所述,偏差本质上是由于模型族本身无法很好地近似,而不是由于数据不足引起的;方差表征的是有限数据集的随机性如何引入学习模型中的误差,衡量了学习模型对数据集中随机性的敏感度,随着数据集增大,方差通常减小。

参考资料

人工智能基础课

cycleuser/Stanford-CS-229