人工智能基础
梯度下降公式的推导
目标是最小化一个可微函数 。
函数 在 附近的泰勒展开式为
函数 在 附近的泰勒展开式为
保留一阶泰勒展开,得到
其中 是要移动的方向,为了使得 ,需要满足
表示移动方向与梯度方向相反,自然选择
其中 。则参数更新规则为
以回归模型为例,用 的线性函数近似 ,
其代价函数为
偏导数计算如下
则更新规则为
这种方法需要再执行单次更新前扫描整个训练集,被称为 批量梯度下降。
线性回归
设模型的预测值为 ,观测值为 ,则噪声 。噪声服从参数为 的正态分布,即 ,其概率密度函数为
单个样本 出现的概率等价于噪声取值为 的概率,将 带入噪声的概率密度函数得到单个样本的概率密度
其中 表示给定 和参数 的条件下,观测到 的概率密度,核心是模型参数 的函数。
若有 个样本 ,各个样本之间相互独立,则所有样本同时出现的概率为
于是,最大化似然函数 等价于最小化 ,即最小二乘法的损失函数,同时也证明了在噪声满足正态分布的条件下,最小二乘与最大似然等价。
对于单变量的线性回归,,带入到均方误差的表达式中对 和 求偏导, 极值点即为线性回归的最优解
对于多变量的线性回归,。
定义损失函数为
令 ,在 的逆矩阵存在的前提下,得到参数的最优解为
泛化和正则
泛化
偏差-方差均衡
训练集输入 是随机选择的,输出 生成,其中 表示观测噪声。测试样本 也有相同的输入-输出映射 ,其中 ,本质上,我们的目标是恢复函数 .
将模型的 偏差(bias) 定义为即使拟合到无限大的训练数据集,曾存在的测试误差。在这种情况下,表现为欠拟合。
训练集中的虚假信息大部分是由于观测噪声 引起的,拟合这些虚假信息会导致模型具有较大的测试误差,将其定义为模型的方差。
通常,偏差和方差之间存在权衡。如果模型过于简单且参数很少,那么它可能具有较大的偏差(但方差较小),并且通常会遭受欠拟合;如果它过于复杂且参数很多,那么它可能遭受较大的方差(但偏差较小),因此会过拟合。
抽取一个训练集 ,其中 ,在该数据集上训练一个模型记为 ,取测试样本 ,使得 ,并测量测试误差的期望 下面将 分解, 抽取无限多个数据集作为训练集,对他们在 上的预测进行平均而获得的模型定义 。进一步分解 ,
如前所述,偏差本质上是由于模型族本身无法很好地近似,而不是由于数据不足引起的;方差表征的是有限数据集的随机性如何引入学习模型中的误差,衡量了学习模型对数据集中随机性的敏感度,随着数据集增大,方差通常减小。
参考资料
人工智能基础课
cycleuser/Stanford-CS-229