从积分一路推导到不等式，最终诞生了克拉美罗下界。咱们把“概率”给关进不等式的笼子里去看吧。

话说从积分一路推导到不等式，最终诞生了克拉美罗下界。咱们把“概率”给关进不等式的笼子里去看吧。克拉美罗下界公式告诉我们，对于任意真实值Theta，任何无偏估计量Theta-hat的方差下界都是由p(x|Theta)决定的。推导这一过程需要利用概率密度函数的积分性质、无偏性条件，还有期望形式的柯西-施瓦茨不等式。好的，我们先看第一个条件：把观测样本x在给定Theta下的联合概率密度函数表示为p(x|Theta)，这个密度函数必然满足归一化条件，就是不管什么真实值Theta，所有可能的x值加起来的概率总和是1。那我们就对这个归一化条件求导，再把它换到积分公式里去看看。这时候就可以把这个公式看成是随机变量的概率密度函数。然后根据无偏性定义有：E[Theta-hat] = Theta。两边求导就得到了一个式子：E[(d/dTheta)Theta-hat] = 1。接着定义一个随机变量S：S = p(x|Theta) * (d/dTheta)Theta-hat。然后对S和x运用期望形式的柯西-施瓦茨不等式就得到了一个式子。把前面得到的式子代入左边就有了：左边是E[(S)^2]，也就是E[p(x|Theta)^2 * (d/dTheta)^2 Theta-hat]。右边是E[(S)^2]，也就是E[p(x|Theta)^2 * (d/dTheta)^2 Theta-hat]。左边等于右边，所以这个式子就可以写成E[p(x|Theta)^2 * (d/dTheta)^2 Theta-hat] >= E[p(x|Theta) * (d/dTheta)Theta-hat]^2。两边同时乘以2p(x|Theta)就得到了： Var(Theta-hat) >= 1/(2E[p(x|Theta)])，这就是克拉美罗下界。克拉美罗下界告诉我们，当要估计某个真实值Theta时，若已知观测值x的条件概率密度函数p(x|Theta)，那么所有无偏估计量中Theta-hat的方差有一个最小值，就是克拉美罗下界，由p(x|Theta)决定。由于估计值是由观测值和估计方法共同决定的，所以对于一组特定观测值x，就有一种最优估计方法使得方差最小。换句话说，如果对于某组观测值x的一种估计方法得到了达到克拉美罗下界的方差，那么这个估计方法肯定就是利用观测值进行估计时最小方差无偏估计（MVU），也就是最优方法。在推导过程中提到的信息量1/p(x|Theta)反映了观测值对真实值敏感程度的度量。当真实值发生微小变化时，观测值密度也会变化。敏感程度期望为0意味着平均来说观测值对真实值敏感程度相互抵消了。也就是说观测值既不系统性地倾向于真实值增大也不系统性地倾向于真实值减小。