典型集与渐进均分性
Typical Set 和 Asymptotic Equipartition Property 应该是很深刻的性质。
AEP 的概率论基础
- 我们同样从概率论基础谈起。
Markov 不等式
对于非负的随机变量
,有: 证明:按定义:
Chebyshev 不等式
对于随机变量
,有: 证明:按定义:
随机变量收敛的模式
这里简要介绍几种随机变量收敛的模式。考虑随机变量列
,我们考察其收敛到 的模式 : 几乎处处收敛:即存在
的子集 使得 ,且: 也称以概率 收敛。 依概率收敛:即:
另外还有依分布收敛、依
收敛等模式,但本文应该不会用到。这些模式都是对于一般随机变量定义的,并且可以验证它们之间的一些关系,例如几乎处处收敛是强于依概率收敛的。
大数定理
大数定理同样有几个版本,最简单的版本如下:
- 弱大数定理:对于独立随机变量
,每一个 都是可积的且具备相同的期望 。若 的二阶矩具备统一上界,则 依概率收敛到 。
这个定理比较简单,证明直接使用 Chebyshev 不等式即可。我们在这里引入大数定理是为了要证明下面的 AEP ,但是 AEP 的叙述本身没有直接要求二阶矩有界。我们也许可以验证这一点,但更方便的方式是使用如下的另一个版本:
- Khinchin 弱大数定理:对于独立同分布的随机变量
,每一个 均可积且期望有界,记其为 。则 依概率收敛到 。
这里我们就不再对二阶矩有要求了。但是 Khinchin 弱大数定理的证明比较复杂,这里不打算深入。另一方面,在弱大数定理中,若改为要求四阶矩有界,可以把结论加强到几乎必然收敛,这就是 Cantelli 强大数定理;在 Khinchin 弱大数定理中,我们可以直接把结论加强到几乎必然收敛,这就是 Kolmogorov 强大数定理,但是证明上会更加复杂。
- 弱大数定理:对于独立随机变量
引入:数据压缩
- 渐进均分性和典型集在直观上说的事情其实是,概率空间中极小的一部分典型样本(处于典型集中)占据了绝大多数的概率,并且这些典型样本各自的概率在数量级上差不多(渐进均分性)。单从这句话引入其实不够具体,为了提供直观,我们从数据压缩的码率1引入。考虑如下问题:给定离散无记忆信源,其每次产生一个独立同分布的字符
,我们要对 个字符构成的信息 编码。设 为另一同分布的随机变量,则一个显然的码率上界是 ,然而这个上界太蠢了,它距离理论下界熵率 太远。于是我们考虑引入渐进均分性和典型集,即对那些高概率的典型样本和其它样本分别编码,以逼近熵率。
渐进均分性
- 对于独立同分布的随机变量列
,记 为另一同分布的随机变量,有 依概率收敛到 。这个定理的证明其实相当容易,直接使用 Khinchin 弱大数定理即可。AEP 的另一个表述是,定义: 则对于任意的 ,当 充分大时, 趋于 ,而 就被称作典型集2。可以看到,典型集中的元素的概率的数量级基本是一致的,并且它们占据了绝大多数概率,即它们“均分”了概率。
典型集
- 由 AEP 中的推导,我们可以期待
处于 级别,而我们的确可以严格的说明这一点。即,对于任意 及充分大的 ,有: 以上定理的证明不难,这里留作习题3。这样典型集中的元素个数就有保证了。考虑典型集中的元素在样本空间中的占比: 绝大多数时候 ,那么取一 使得 ,当 时就有 ,这说明典型集中的元素仅占样本空间极小的一部分。
高概率集
- 大致意思是说任何概率趋于 1 的集合基本包含典型集,过会再写。
解答:数据压缩
有了 AEP 和典型集,我们再回到一开始的问题。现在我们考虑以下的编码策略:
- 对于
中的元素,直接编码。则每个元素的码长小于 。 - 对于其它元素,同样直接编码。则每个元素的码长小于
。 - 对于第一类元素,在开头追加
;对于其余元素,在码前追加 。
这样我们就得到了无误的编码方式。计算其码率:
其中 是一个任意小的正数。于是我们证明了,如上的编码方式可以任意的逼近码长。- 对于
另外也可以证明若码率小于熵率,则错误率必然趋于1,暂时不写这个。
- 标题: 典型集与渐进均分性
- 作者: RPChe_
- 创建于 : 2025-04-22 00:00:00
- 更新于 : 2025-04-26 01:27:27
- 链接: https://rpche-6626.github.io/2025/04/22/IT/aep/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
推荐阅读
评论