微分熵

RPChe_

此处我们只是简单的将先前的概念推广到连续随机变量的情况下而已。

微分熵的定义

  • 不妨先考虑离散随机变量 ,记其像集为 ,则其信息熵为: 如果我们直接将其推广到连续的情况下,考虑随机变量 ,其概率密度函数为 ,那么对于 ,应有 。从而:1 我们可以期待 是一个无穷大,所以这样定义的 其实是无界的。另一方面,这也说明连续随机变量的不确定度其实是无穷大,即我们需要无穷个比特才能对其准确的编码。但我们还是希望衡量连续的 的不确定度,所以我们抛开 这一项,就得到了微分熵的定义: 特别的,我们一般用 表示微分熵, 表示离散熵。

  • 微分熵有一些简明的性质:

    • 平移不变性。显然,对于任意常数
    • 乘常数会导致微分熵的变化。即对于任意 ,这一点就和离散的情况不同。另一方面对于随机向量 与常方阵 ,也有

平衡信息不等式

  • 我们要先介绍平衡信息不等式2,因为通过其我们可以容易的把很多离散熵的结论无痛推广到微分熵。现在我们将先给出 balanced information inequality 的叙述:

    • 考虑 个随机变量 ,对于 ,记 。那么,我们必然可以将任何的信息不等式写成: 其中 为常系数。我们某一信息不等式是平衡的,当且仅当: 那么,对于平衡的信息不等式,其微分熵形式成立,当且仅当其离散熵形式成立。

    这里我们将不会给出 balanced information inequality 的证明,但以上定理其实说了一件很简单的事情。在最先定义微分熵的时候,我们抛开了 这一项。然而若信息不等式是平衡的,我们可以把这一项给加上,同时使其系数为 ,也就是不影响最后的结果。这样,我们可以期待直接对离散熵形式取极限来证明微分熵形式的不等式。

微分熵的性质

  • 我们可以仿照离散的情况定义联合微分熵和条件微分熵,即: 由平衡信息不等式,我们立即可以得到:

    • 3

    • 链式法则:

    而对于相对熵以及互信息,这两个概念和离散的情况基本是一致的,因为其天然满足平衡信息不等式。

  • 另外渐进均分性和典型集也可以对微分熵类似定义:

    • 渐进均分性:对于不利同分布的连续随机变量 ,记其概率密度函数为 ,令 为另一同部分的随机变量,则: 其中收敛是依概率的。

    • 典型集:定义: 则对于任意 存在充分大的 使 。而对于典型集的大小,我们也可以期待类似于离散熵的性质,不过我没细看样本空间的“大小”是怎么定义的。

最大熵原理

  • 我们时而会遇到这样的问题:满足某些给定条件的熵最大的分布是什么?在离散的情况下,这种问题是较为平凡的;而在连续的情况下,我们讨论几个特殊的例子:
    • 闭区间上的最大熵:显然就是均匀分布。
    • 上给定均值和方差的最大熵:高斯分布。4
    • 上给定均值 的最大熵:速率为 的指数分布。

高斯信道

  • 感觉意思不大,没啥兴趣,不太想写。

  1. 这里可能写得不是很严谨,但其实不影响我们的讨论。因为这样的写法符合直观,而且很容易严格化。↩︎

  2. Balanced Information Inequalities, T. H. Chan, IEEE Transactions on Information Theory, Vol. 49, No. 12, December 2003.↩︎

  3. 考虑到 ↩︎

  4. 这个会比较麻烦。本课程提供了一个不依赖泛函分析的证明,但是需要一些技巧。实际上直接使用泛函形式的 Lagrangian 应该会更方便,可惜我不会,所以也就不提供证明了。↩︎

  • 标题: 微分熵
  • 作者: RPChe_
  • 创建于 : 2025-04-27 00:00:00
  • 更新于 : 2025-04-27 19:09:20
  • 链接: https://rpche-6626.github.io/2025/04/27/IT/diff/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论