概率密度函数的变化

假设原函数为 fX(x)={2x,0<x<10,o.w.f_X(x) = \begin{cases}2x &, 0 < x < 1\\ 0 &, o.w.\end{cases} 那对于随机变量 U=3X+1U = 3X + 1 我们如何计算 UU 的概率密度函数呢?
首先我们可以尝试将 x 直接变成 uu 得到 x=u13x = \frac{u - 1}{3} 从而直接带入公式求分布
但是这样其实忽略了一个问题: xux \to u 的变换发生了拉伸以及偏移,所以其概率曲线可能是微微变形的 原函数,但是其归一性可能已经不满足了
因此我们直接从 最满足归一性 的 c.d.f 入手 (因为非线性变换之后可能我们不能用除以全积分归一来简单求解)我们使用 fU=dduFU(u)f_U = \frac{d}{du}F_U(u)
而这里c.d.f 用的是 FU(u)=P[Uu]=P[3X+1u]=P[Xu13]=Fx(u13)F_U(u) = P[U\le u] = P[3X+1 \le u] = P [X \le \frac{u - 1}{3}] = F_x(\frac{u - 1}{3}) 将 U 空间的转变为 XX 空间下的从而能够套用这个公式了

如何理解概率密度的变换公式?

我们在对多元概率密度函数 fXYZ(x,y,z,)f_{XYZ\cdots}(x,y,z,\cdots) 进行积分的时候,我们会得到一个多重积分,如果我们这里要对多重积分进行换元操作,那么我们就要用到经典的 Jacobian 矩阵进行变换了,雅阁比矩阵是利用原空间基对新空间基进行一一求导得到的矩阵,我们对这个矩阵进行行列式求解,我们就会得到一个变换的积分系数 (即向量基的张程比)从而我们可以构造等式

f(x,y)dxdy=f(u,v)Jdudvf(x,y)dxdy = f(u,v)|J|dudv

其中雅阁比矩阵 JJ 的定义为:

J=[xuxvyuyv]J = \begin{bmatrix}\frac{\partial x}{\partial u} & \frac{\partial x}{\partial v}\\\frac{\partial y}{\partial u} & \frac{\partial y}{\partial v}\end{bmatrix}

当然这里主要是讨论仿射变换或者 在物理中常用来 (x,y)(r,θ)(x,y)\to (r,\theta) 极坐标化

期望和方差的变化

我们首先可以简单的理解为 将一个统计的数值变成一个新的值而总的人数不变,那么其期望会发生变化:

E[aX+b]=aE[X]+bE[aX + b] = aE[X] + b

方差也会发生变化:

Var[aX+b]=a2Var[X]Var[aX + b] = a^2Var[X]

因此标准差变化为: SD[aX+b]=aSD[X]SD[aX + b] = |a|SD[X]

从局部样本到全局数据

假设局部变量为 X1,X2,XiX_1, X_2 \cdots, X_i, 那么如何计算整体数据的各个统计量呢?这里我们假设各个事件 X1X_1 \cdots 为独立事件,互相之间并不会影响概率(这里要求 XiX_i 占全集的比重小于 5%5\%
对于期望而言,由于在增大样本个数的时候(假设各个样本的数据分布相同),我们可以将期望表达式写作 E[X1+X2++Xi]=E[nXi]E[X_1 + X_2 +\cdots + X_i] = E[nX_i] 从而根据上述的变换式得到 nE[Xi]nE[X_i]
接下来我们讨论一下方差的变化,从直觉上进行理解,当我们对于一个同样概率的事件进行重复,那么发生偏移的概率会增大。比如扔一个骰子一次和两次,那么它们的偏差值呈现二次的变化效果,而样本量呈线性增大,因此,整体上方差呈现一次增大趋势,即:

Var[X1+X2++Xn]=Var[nXi]=nVar[Xi]Var[X_1 + X_2 + \cdots + X_n] = Var[nX_i] = nVar[X_i]

同理,标准差的计算公式

SD[X1+X2++Xn]=nSD[Xi]SD [X_1 + X_2 + \cdots + X_n] = \sqrt{n}SD[X_i]

从全局数据到平均数据

假设现在我们要计算扔5次骰子的平均值的方差,这会和一般样本值有什么区别吗?
其实简单想一想,平均值的偏差一般会小一点,因为偏差值会被钝化(比如我们在计算一个包含噪声的采样数据集的时候会很自然地用多个踩点的平均值进行钝化数值),因此我们可以大概知道,平均值的方差会比原始数据的方差小,这里我们可以用数学公式进行证明:

E[Xˉ]=E[Xin]=nnE[Xi]E[\bar X]= E[\frac{\sum X_i}{n}] = \frac{n}{n} E[X_i]

方差的公式也是如此:

Var[Xin]=1n2Var[Xi]=1n2nVar[Xi]=1nVar[Xi]Var[\frac{\sum X_i}{n}] = \frac{1}{n^2}Var[\sum X_i] = \frac{1}{n^2}nVar[X_i] = \frac{1}{n}Var[X_i]

以及标准差的公式:

SD[Xin]=1nVar[Xi]=1nSD[X]SD[\frac{\sum X_i}{n}] = \sqrt{\frac{1}{n}Var[X_i]} = \frac{1}{\sqrt{n}} SD[X]