估计理论

数学基础

用概率密度函数(Probability Density Function, PDF)描述一组随机数据,即 ,PDF 以未知量 为参数,以 表示均值为例,数据的 PDF 为

然后就可以根据 的观测值推断 的值。

估计量性能评估

将数据建模为

其中 为加性高斯白噪声(Additive Gaussian White Noise, AWGN),即 表示均值为 ,方差为 的高斯分布,并且所有样本是互不相关的。利用下式即数据的样本均值估计

满足

最小方差无偏估计

无偏估计量

无偏估计意味着估计量的平均值为未知参数 的真值,如果

说明估计量是无偏的,其中 表示 可能的取值范围。

对于同一个参数有多个估计可用的情况,即 ,对这些组合求平均,即

假设每个估计量都是无偏的,方差相同且互不相关,则

因此,求平均的估计值越多,方差越小,当 时,

最小方差准则

均方误差定义为

衡量估计值偏离真值的平方偏差的统计平均值。

其中第一部分是估计量围绕其数学期望的随机波动,第二部分是估计量的期望围绕真值的波动,展开后得到

其中 ,表示估计量的偏差。上式表明 是由 估计量的方差偏差 引起的误差组成的。

对于有偏的估计量, 与参数 的真值有关,最小化 可能导致不可实现的估计量,如果约束估计量为无偏的,然后最小化方差,得到的估计量就是最小方差无偏(Minimum Variance Unbiased, MVU)估计量。

最小方差无偏估计的存在性

不总是存在一个估计量 ,对于所有的 ,其方差都小于其它无偏估计量!

Cramer-Rao 下限

观测到单个样本

无偏估计满足 .

考虑 PDF 的自然对数

一阶导数为

负的二阶导数(对数似然函数的曲率)为

随着 的减少而增加,并且已知 ,则

更一般的度量是

表示对数自然函数的平均曲率,值越大,表示估计量的方差越小。

直观理解:

PDF 的 取固定值时,PDF 是参数 A 的(似然)函数,图像越尖锐,估计参数 A 的精度越高。用 负的二阶导数 定量描述 尖锐程度

似然函数的对数曲线对参数越陡,表示数据对该参数越敏感,信息越多,可达的方差下界越小。

标量参数的 CRLB

假设对于所有的参数 ,概率密度函数 满足正则条件

那么,任何无偏估计量 的方差满足

当且仅当

时,对有所 达到下限的无偏估计量可以求得,估计量 时 MVU 估计量,最小方差是 .

推导过程

左边:

右边:

根据牛顿-莱布尼茨公式

边界随参数变化带来的边界项 时,求积分与求偏导运算可以交换。

假设正则条件满足,两式中的求积分和求偏导运算可以交换,说明 PDF 的非零边界和参数 无关


下面推导标量参数 的 CRLB,对于所有无偏估计量

在满足正则条件的前提下,对等式两边求导,得到

根据正则条件 ,可以得到

两式作差得到

根据柯西-施瓦茨不等式,

$$

$$

由正则化条件,

得到

积分边界与参数 无关,于是

最终得到,

当且仅当无偏估计量 与对数似然函数的一阶偏导数呈线性关系,即

时成立,其中 无关。

直观理解:

对数似然函数的一阶偏导数反映“秤”对真实值的敏感程度,取等条件表示估计值和 敏感程度 呈固定的比例,“秤”越敏感,估计的误差就按照这个比例调整,几步浪费精度,也不高估“秤”的能力,最终将误差压到最低值。

为例,达到 CRLB 时,

定义 Fisher 信息 ,则

矢量参数的 CRLB

现将前一部分的结果扩展到估计矢量参数 ,假定 是无偏估计,矢量参数的 CRLB 允许对每隔元素的方差放置一个下限,即

其中 的 Fisher 信息矩阵,

假设 PDF 满足正则条件

则任何无偏估计量 的协方差矩阵满足

当且仅当

时可达下限。

推导过程

下面推导矢量参数 的 CRLB,考虑无偏估计量

根据正则条件 ,可以得到

两式作差得到

时,

组合成矩阵形式

对于任意的 矢量 矢量

由柯西-施瓦茨不等式

并且

进一步得到

由于 正定,得到

取等条件为

与上一部分推导标量的类似,考虑 时,

$$

$$