信息论中KL散度详解

在信息论中,对信息的度量主要是通过香农熵,自信息等。而本文中的KL散度(Kullback-Leible散度)则是对信息之间的度量或者两个分布之间的距离的度量,又称为交叉熵,相对熵。

1. KL散度的定义

设$p(x)$和$q(x)$是$x$取值的两个概率分布,一般$p(x)$和$q(x)$为密度函数则$p$对$q$的相对熵为:

在一定程度上,KL散度可以度量两个随机变量的距离。KL散度是两个概率分布P和Q差别的非对称性的度量。KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。 典型情况下,P表示数据的真实分布,Q表示数据的理论分布,模型分布,或P的近似分布。

2. KL散度的性质

  • 虽然KL散度似乎是一个距离或者度量,但是在严格的意义上讲又不是距离的度量,因为他们是不对称的,因此第一个性质就是不对称性,但是可以将公式转换为对称的公式,如下:
  • KL散度的值始终是非负的:

3. KL散度的应用

  1. 相对熵可以衡量两个随机分布之间的距离,当两个随机分布相同时,它们的相对熵为零,当两个随机分布的差别增大时,它们的相对熵也会增大。所以相对熵(KL散度)可以用于比较文本的相似度,先统计出词的频率,然后计算KL散度就行了。
  2. 在多指标系统评估中,指标权重分配是一个重点和难点,通过相对熵可以处理。
  3. 在用户画像系统中可以进行应用
  4. 推荐系统
  5. T-SNE降维
  6. EM算法(最大期望算法)