微分熵

RPChe_

2025-04-27 2025-04-27 创建 2025-06-13 18:39:53 2025-06-13 18:39:53 更新

学术

信息论

1.1k 字 3 分钟

此处我们只是简单的将先前的概念推广到连续随机变量的情况下而已。

微分熵的定义

不妨先考虑离散随机变量，记其像集为，则其信息熵为：如果我们直接将其推广到连续的情况下，考虑随机变量，其概率密度函数为，那么对于，应有。从而：¹ 我们可以期待是一个无穷大，所以这样定义的其实是无界的。另一方面，这也说明连续随机变量的不确定度其实是无穷大，即我们需要无穷个比特才能对其准确的编码。但我们还是希望衡量连续的的不确定度，所以我们抛开这一项，就得到了微分熵的定义：特别的，我们一般用表示微分熵，表示离散熵。
微分熵有一些简明的性质：
- 平移不变性。显然，对于任意常数，。
- 乘常数会导致微分熵的变化。即对于任意，，这一点就和离散的情况不同。另一方面对于随机向量与常方阵，也有。

平衡信息不等式

我们要先介绍平衡信息不等式²，因为通过其我们可以容易的把很多离散熵的结论无痛推广到微分熵。现在我们将先给出 balanced information inequality 的叙述：
- 考虑个随机变量，对于，记。那么，我们必然可以将任何的信息不等式写成：其中为常系数。我们某一信息不等式是平衡的，当且仅当：那么，对于平衡的信息不等式，其微分熵形式成立，当且仅当其离散熵形式成立。
这里我们将不会给出 balanced information inequality 的证明，但以上定理其实说了一件很简单的事情。在最先定义微分熵的时候，我们抛开了这一项。然而若信息不等式是平衡的，我们可以把这一项给加上，同时使其系数为，也就是不影响最后的结果。这样，我们可以期待直接对离散熵形式取极限来证明微分熵形式的不等式。

微分熵的性质

我们可以仿照离散的情况定义联合微分熵和条件微分熵，即：由平衡信息不等式，我们立即可以得到：
- 。³
- 链式法则：
- 。
而对于相对熵以及互信息，这两个概念和离散的情况基本是一致的，因为其天然满足平衡信息不等式。
另外渐进均分性和典型集也可以对微分熵类似定义：
- 渐进均分性：对于不利同分布的连续随机变量，记其概率密度函数为，令为另一同部分的随机变量，则：其中收敛是依概率的。
- 典型集：定义：则对于任意存在充分大的使。而对于典型集的大小，我们也可以期待类似于离散熵的性质，不过我没细看样本空间的“大小”是怎么定义的。

最大熵原理

我们时而会遇到这样的问题：满足某些给定条件的熵最大的分布是什么？在离散的情况下，这种问题是较为平凡的；而在连续的情况下，我们讨论几个特殊的例子：
- 闭区间上的最大熵：显然就是均匀分布。
- 在上给定均值和方差的最大熵：高斯分布。
- 在上给定均值的最大熵：速率为的指数分布。
谈到最大化熵的分布该如何确定，有一个方便的办法是直接使用泛函形式的 Lagrangian 。如果不使用泛函分析的工具，也可以使用相对熵比较方便的做验证，但是此时就需要先构造出最大化熵的形式。一个简单的例子是，考虑上给定均值和方差的最大化熵的分布，我们希望验证其恰为高斯分布。考虑相对熵，对于，对于任意的分布有：记的概率密度函数分别为，则：进一步：而这正是高斯分布的熵。

高斯信道

感觉意思不大，没啥兴趣，不太想写。

这里可能写得不是很严谨，但其实不影响我们的讨论。因为这样的写法符合直观，而且很容易严格化。↩︎
Balanced Information Inequalities, T. H. Chan, IEEE Transactions on Information Theory, Vol. 49, No. 12, December 2003.↩︎
考虑到。↩︎

标题: 微分熵
作者: RPChe_
创建于 : 2025-04-27 00:00:00
更新于 : 2025-06-13 18:39:53
链接: https://rpche-6626.github.io/2025/04/27/IT/diff/
版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。

#信息论

推荐阅读

典型集与渐进均分性

典型集与渐进均分性

熵的性质

推荐阅读

典型集与渐进均分性

典型集与渐进均分性

评论

目录

微分熵

微分熵的定义
平衡信息不等式
微分熵的性质
最大熵原理
高斯信道