point estimator 和 point estimate

estimator

一个从样本数据计算实验参数的过程,本质上是一个随机变量, 或者说是一个随机变量的函数 (简单理解为随机变量的函数还是随机变量); 其作为函数而言,输入量是 多个随机变量 (注意表达式这里不能用数值,应该用随机变量),但不能包括实验的参数 θ\theta
其观测值为 estimate

estimate

是一个数值

目的

通过样本的数据来估算 population 具有的特征

两个研究角度

  1. 对于给定的 point estimate 如何评价估计效果?
  2. 如何计算 point estimate?

MSE 最小平方误差

bias

B[θ^]=E[θ^θ]=E[θ^]θB[\hat \theta ] = E[\hat \theta - \theta] = E[\hat\theta] - \theta
unbiased: B[θ^]=0B[\hat\theta] = 0

MSE

MSE[\hat \theta] = (E[\hat \theta - \theta])^2 = \cdots = (B[\hat \theta])^2 + \sigma_\hat\theta^2

MLE 极大似然估计

极大似然估计是一种用来构造 estimator 的工具,其本身并不是一个 point estimator. 其输入量有两个: θ\theta, XiX_i (这里可以看出从定义上就不符合), 且这个过程的结果是 point estimate, 因此诸如 θ^MLE\hat{\theta}_{MLE} 表示的是通过 MLE 方法获得的点估计值, 过程中并不会存在对于 estimator θ\theta 的分析

  • likelihood 函数: 输入包括 Xi,θX_i, \theta
  • θ^MLE\hat\theta_{MLE}: 输入包括 XiX_i, 不包括 θ\theta (应该可以类似于 图灵机 借助无效输入量 θ\theta)
    • 也可以写作 MLE(θ\theta) 结果表示的是 θ\theta 最有可能的值

原理

对一个独立同分布事件多次重复实验获得各个结果的 freqifreq_i (这里应该使用对应分布的概率函数), 再将各个部分的 freqifreq_i 进行累乘 (考虑 and 逻辑概率, 一个事件发生多次就以次方的形式体现) 得到总的概率表达式,这里会包括点随机变量 XiX_i, 目标参数 θ\theta (可以有多个)
目的是最大化表达式值(假设当前随机事件是概率分布中最有可能的事件),这个时候的 XiX_i 应该已经以值的形式存在于表达式中,那么就是一个关于参数 θ\theta 的函数,对这个函数求导找到最大值就是极大似然

步骤

  1. 建立似然函数 L(θ)L(\theta), 一般是将多个概率变量累乘
  2. 用 ln 处理似然函数,将累乘变成 概率变量累加
  3. 求导找到极值, 判断是极大值

不变性原理 invariance principle

计算 estimator 的 MLE 等于 MLE 值带入到 estimator 函数本身得到的答案
例如, MLE(h(θ))=h(MLE(θ))MLE(h(\theta)) = h(MLE(\theta))