信息熵 Entropy

  • 熵 Entropy

    • 定义:物体内部的混乱程度,也就是一件事情发生的不确定性

    • H(X)=ΣP(x)logP(x)H(X) = -\Sigma P(x)\log P(x)

      • 由于 p(x)(0,1]p(x)\in(0,1] 其对数必然小于零,所以要取相反数

      • 为什么要采用 log\log

        • 对于选择多的,各项概率低,那么 -log 会放大,混乱程度高
        • 选择少的概率高,-log 接近于 0, 混乱程度小
      • 我们可以画出 y=xlnxy = -x\ln x 的曲线图像,其在 (0,1)(0,1) 上具有最大值,两端都为 0

    • 应用:可以描述分类的效果是否良好

      • 如果分类之后各个类别的内容的熵值越小,则整体的分类效果好