Brstjjy

在信息论中，条件熵描述了在已知第二个随机变量 $X$ 的值的前提下，随机变量 $Y$ 的信息熵还有多少。同其它的信息熵一样，条件熵也用Sh、nat、Hart等信息单位表示。基于 $X$ 條件的 $Y$ 的信息熵，用 $mathrm{H} (Y|X)$ 表示。

定义

如果 $mathrm{H} (Y|X=x)$ 爲變數 $Y$ 在變數 $X$ 取特定值 $x$ 條件下的熵，那麼 $mathrm{H} (Y|X)$ 就是 $mathrm{H} (Y|X=x)$ 在 $X$ 取遍所有可能的 $x$ 後取平均的結果。

给定随机变量 $X$ 与 $Y$ ，定義域分別爲 ${mathcal X}$ 與 ${mathcal Y}$ ，在給定 $X$ 條件下 $Y$ 的條件熵定義爲：^[1]

{begin{aligned}mathrm{H} (Y|X) &equiv sum _{{xin {mathcal X}}},p(x),mathrm{H} (Y|X=x)\&=-sum _{{xin {mathcal X}}}p(x)sum _{{yin {mathcal Y}}},p(y|x),log ,p(y|x)\&=-sum _{{xin {mathcal X}}}sum _{{yin {mathcal Y}}},p(x,y),log ,p(y|x)\&=-sum _{{xin {mathcal X},yin {mathcal Y}}}p(x,y)log ,p(y|x)\&=-sum _{{xin {mathcal X},yin {mathcal Y}}}p(x,y)log {frac {p(x,y)}{p(x)}}.\&=sum _{{xin {mathcal X},yin {mathcal Y}}}p(x,y)log {frac {p(x)}{p(x,y)}}.\end{aligned}}

注意： 可以理解，對於確定的 c>0，表達式 0 log 0 和 0 log (c/0) 應被認作等於零。

當且僅當 $Y$ 的值完全由 $X$ 確定時， $mathrm{H} (Y|X)=0$ 。相反，當且僅當 $Y$ 和 $X$ 爲獨立隨機變數時 $mathrm{H} (Y|X)=mathrm{H} (Y)$ 。

链式法则

假設兩個隨機變數 X 和 Y 確定的組合系統的聯合熵爲 $mathrm{H} (X,Y)$ ，即我們需要 $mathrm{H} (X,Y)$ bit的信息來描述它的確切狀態。
現在，若我們先學習 $X$ 的值，我們得到了 $mathrm{H} (X)$ bits的信息。
一旦知道了 $X$ ，我們只需 $mathrm{H} (X,Y)-mathrm{H} (X)$ bits來描述整個系統的狀態。
這個量正是 $mathrm{H} (Y|X)$ ，它給出了條件熵的链式法则：