协方差 Covariance

协方差是统计学中描述两个变量如何一起变化的指标。协方差是一个二元变量的统计量,用于衡量两个变量的总体误差。

公式

Cov(X,Y)=i=1n(XiXˉ)(YiYˉ)nCov(X,Y) = \frac{\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{n}

其中 X\overline{X} 表示 XX 的均值,Y\overline{Y} 表示 YY 的均值,nn 表示样本数量。
但是常见情况下会考虑期望而不是均值,所以我们可以将公式改写为:

Cov(X,Y)=E[(XμX)(YμY)]Cov(X,Y) = E[(X-\mu_X)(Y-\mu_Y)]

性质

  1. 协方差是对称的,即 Cov(X,Y)=Cov(Y,X)Cov(X,Y) = Cov(Y,X)
  2. 协方差的绝对值越大,说明两个变量的相关性越强
  3. 协方差为正时,说明两个变量正相关;协方差为负时,说明两个变量负相关
  4. 协方差为 0 时,说明两个变量不相关

协方差矩阵

协方差矩阵是一个方阵,对角线上的元素是各个变量的方差,非对角线上的元素是两个变量之间的协方差。

公式

Σ=[Var(X1)Cov(X1,X2)Cov(X1,Xn)Cov(X2,X1)Var(X2)Cov(X2,Xn)Cov(Xn,X1)Cov(Xn,X2)Var(Xn)]\Sigma = \begin{bmatrix} Var(X_1) & Cov(X_1,X_2) & \cdots & Cov(X_1,X_n) \\ Cov(X_2,X_1) & Var(X_2) & \cdots & Cov(X_2,X_n) \\ \vdots & \vdots & \ddots & \vdots \\ Cov(X_n,X_1) & Cov(X_n,X_2) & \cdots & Var(X_n) \end{bmatrix}

假设我们有一个 n 维随机变量向量 X=[X1,X2,Xn]TX=[X_1,X_2\cdots,X_n]^T,其均值向量为 μ=[μ1,μ2,,μn]T\mu = [\mu_1, \mu_2, \ldots, \mu_n]^T,其中 μi=E[Xi]\mu_i = \mathbb{E}[X_i]。那么,协方差矩阵Σ\Sigma 定义为:

Σ=E[(Xμ)(Xμ)T]\Sigma = \mathbb{E}[(X - \mu)(X - \mu)^T]

其中,Σ\Sigma 是一个 n×nn \times n 的矩阵,其第(i,j)(i, j)元素为 XiX_iXjX_j​ 的协方差:

Σij=Cov(Xi,Xj)=E[(Xiμi)(Xjμj)]\Sigma_{ij} = \text{Cov}(X_i, X_j) = \mathbb{E}[(X_i - \mu_i)(X_j - \mu_j)]