8. 点预测 point estimation

point estimator 和 point estimate

estimator

一个从样本数据计算实验参数的过程，本质上是一个随机变量, 或者说是一个随机变量的函数 (简单理解为随机变量的函数还是随机变量); 其作为函数而言，输入量是多个随机变量 (注意表达式这里不能用数值，应该用随机变量)，但不能包括实验的参数 $\theta$
其观测值为 estimate

estimate

是一个数值

目的

通过样本的数据来估算 population 具有的特征

两个研究角度

对于给定的 point estimate 如何评价估计效果？
如何计算 point estimate?

MSE 最小平方误差

bias

$B[\hat \theta ] = E[\hat \theta - \theta] = E[\hat\theta] - \theta$
unbiased: $B[\hat\theta] = 0$

MSE

MSE[\hat \theta] = (E[\hat \theta - \theta])^2 = \cdots = (B[\hat \theta])^2 + \sigma_\hat\theta^2

MLE 极大似然估计

极大似然估计是一种用来构造 estimator 的工具，其本身并不是一个 point estimator. 其输入量有两个: $\theta$ , $X_i$ (这里可以看出从定义上就不符合), 且这个过程的结果是 point estimate, 因此诸如 $\hat{\theta}_{MLE}$ 表示的是通过 MLE 方法获得的点估计值, 过程中并不会存在对于 estimator $\theta$ 的分析

likelihood 函数: 输入包括 $X_i, \theta$
$\hat\theta_{MLE}$ $\hat{θ}_{M L E}$ : 输入包括 $X_i$ $X_{i}$ , 不包括 $\theta$ $θ$ (应该可以类似于图灵机借助无效输入量 $\theta$ $θ$ )
- 也可以写作 MLE( $\theta$ ) 结果表示的是 $\theta$ 最有可能的值

原理

对一个独立同分布事件多次重复实验获得各个结果的 $freq_i$ (这里应该使用对应分布的概率函数), 再将各个部分的 $freq_i$ 进行累乘 (考虑 and 逻辑概率, 一个事件发生多次就以次方的形式体现) 得到总的概率表达式，这里会包括点随机变量 $X_i$ , 目标参数 $\theta$ (可以有多个)
目的是最大化表达式值(假设当前随机事件是概率分布中最有可能的事件)，这个时候的 $X_i$ 应该已经以值的形式存在于表达式中，那么就是一个关于参数 $\theta$ 的函数，对这个函数求导找到最大值就是极大似然

步骤

建立似然函数 $L(\theta)$ , 一般是将多个概率变量累乘
用 ln 处理似然函数，将累乘变成概率变量累加
求导找到极值, 判断是极大值

不变性原理 invariance principle

计算 estimator 的 MLE 等于 MLE 值带入到 estimator 函数本身得到的答案
例如, $MLE(h(\theta)) = h(MLE(\theta))$