条件熵




在信息论中,条件熵描述了在已知第二个随机变量 X{displaystyle X}X 的值的前提下,随机变量 Y{displaystyle Y}Y 的信息熵还有多少。同其它的信息熵一样,条件熵也用Sh、nat、Hart等信息单位表示。基于 X{displaystyle X}X 條件的 Y{displaystyle Y}Y 的信息熵,用 H(Y|X){displaystyle mathrm {H} (Y|X)}mathrm{H} (Y|X) 表示。




目录






  • 1 定义


  • 2 链式法则


  • 3 貝葉斯規則


  • 4 推广到量子理论


  • 5 參考文獻





定义


如果 H(Y|X=x){displaystyle mathrm {H} (Y|X=x)}mathrm{H} (Y|X=x) 爲變數 Y{displaystyle Y}Y 在變數 X{displaystyle X}X 取特定值 x{displaystyle x}x 條件下的熵,那麼 H(Y|X){displaystyle mathrm {H} (Y|X)}mathrm{H} (Y|X) 就是 H(Y|X=x){displaystyle mathrm {H} (Y|X=x)}mathrm{H} (Y|X=x)X{displaystyle X}X 取遍所有可能的 x{displaystyle x}x 後取平均的結果。


给定随机变量 X{displaystyle X}XY{displaystyle Y}Y,定義域分別爲 X{displaystyle {mathcal {X}}}{mathcal  X}Y{displaystyle {mathcal {Y}}}{mathcal  Y},在給定 X{displaystyle X}X 條件下 Y{displaystyle Y}Y 的條件熵定義爲:[1]


H(Y|X) ≡x∈Xp(x)H(Y|X=x)=−x∈Xp(x)∑y∈Yp(y|x)logp(y|x)=−x∈X∑y∈Yp(x,y)logp(y|x)=−x∈X,y∈Yp(x,y)logp(y|x)=−x∈X,y∈Yp(x,y)log⁡p(x,y)p(x).=∑x∈X,y∈Yp(x,y)log⁡p(x)p(x,y).{displaystyle {begin{aligned}mathrm {H} (Y|X) &equiv sum _{xin {mathcal {X}}},p(x),mathrm {H} (Y|X=x)\&=-sum _{xin {mathcal {X}}}p(x)sum _{yin {mathcal {Y}}},p(y|x),log ,p(y|x)\&=-sum _{xin {mathcal {X}}}sum _{yin {mathcal {Y}}},p(x,y),log ,p(y|x)\&=-sum _{xin {mathcal {X}},yin {mathcal {Y}}}p(x,y)log ,p(y|x)\&=-sum _{xin {mathcal {X}},yin {mathcal {Y}}}p(x,y)log {frac {p(x,y)}{p(x)}}.\&=sum _{xin {mathcal {X}},yin {mathcal {Y}}}p(x,y)log {frac {p(x)}{p(x,y)}}.\end{aligned}}}{begin{aligned}mathrm{H} (Y|X) &equiv sum _{{xin {mathcal  X}}},p(x),mathrm{H} (Y|X=x)\&=-sum _{{xin {mathcal  X}}}p(x)sum _{{yin {mathcal  Y}}},p(y|x),log ,p(y|x)\&=-sum _{{xin {mathcal  X}}}sum _{{yin {mathcal  Y}}},p(x,y),log ,p(y|x)\&=-sum _{{xin {mathcal  X},yin {mathcal  Y}}}p(x,y)log ,p(y|x)\&=-sum _{{xin {mathcal  X},yin {mathcal  Y}}}p(x,y)log {frac  {p(x,y)}{p(x)}}.\&=sum _{{xin {mathcal  X},yin {mathcal  Y}}}p(x,y)log {frac  {p(x)}{p(x,y)}}.\end{aligned}}

注意: 可以理解,對於確定的 c>0,表達式 0 log 0 和 0 log (c/0) 應被認作等於零。


當且僅當 Y{displaystyle Y}Y 的值完全由 X{displaystyle X}X 確定時,H(Y|X)=0{displaystyle mathrm {H} (Y|X)=0}mathrm{H} (Y|X)=0。相反,當且僅當 Y{displaystyle Y}YX{displaystyle X}X 爲獨立隨機變數時H(Y|X)=H(Y){displaystyle mathrm {H} (Y|X)=mathrm {H} (Y)}mathrm{H} (Y|X)=mathrm{H} (Y)



链式法则


假設兩個隨機變數 XY 確定的組合系統的聯合熵爲 H(X,Y){displaystyle mathrm {H} (X,Y)}mathrm{H} (X,Y),即我們需要 H(X,Y){displaystyle mathrm {H} (X,Y)}mathrm{H} (X,Y) bit的信息來描述它的確切狀態。
現在,若我們先學習 X{displaystyle X}X 的值,我們得到了 H(X){displaystyle mathrm {H} (X)}mathrm{H} (X) bits的信息。
一旦知道了 X{displaystyle X}X,我們只需 H(X,Y)−H(X){displaystyle mathrm {H} (X,Y)-mathrm {H} (X)}mathrm{H} (X,Y)-mathrm{H} (X) bits來描述整個系統的狀態。
這個量正是 H(Y|X){displaystyle mathrm {H} (Y|X)}mathrm{H} (Y|X),它給出了條件熵的链式法则


H(Y|X)=H(X,Y)−H(X).{displaystyle mathrm {H} (Y|X),=,mathrm {H} (X,Y)-mathrm {H} (X),.}mathrm{H} (Y|X),=,mathrm{H} (X,Y)-mathrm{H} (X),.

链式法则接著上面條件熵的定義:


H(Y|X)=∑x∈X,y∈Yp(x,y)log⁡p(x)p(x,y)=−x∈X,y∈Yp(x,y)logp(x,y)+∑x∈X,y∈Yp(x,y)logp(x)=H(X,Y)+∑x∈Xp(x)logp(x)=H(X,Y)−H(X).{displaystyle {begin{aligned}mathrm {H} (Y|X)&=sum _{xin {mathcal {X}},yin {mathcal {Y}}}p(x,y)log {frac {p(x)}{p(x,y)}}\&=-sum _{xin {mathcal {X}},yin {mathcal {Y}}}p(x,y)log ,p(x,y)+sum _{xin {mathcal {X}},yin {mathcal {Y}}}p(x,y)log ,p(x)\&=mathrm {H} (X,Y)+sum _{xin {mathcal {X}}}p(x)log ,p(x)\&=mathrm {H} (X,Y)-mathrm {H} (X).end{aligned}}}{begin{aligned}mathrm{H} (Y|X)&=sum _{{xin {mathcal  X},yin {mathcal  Y}}}p(x,y)log {frac  {p(x)}{p(x,y)}}\&=-sum _{{xin {mathcal  X},yin {mathcal  Y}}}p(x,y)log ,p(x,y)+sum _{{xin {mathcal  X},yin {mathcal  Y}}}p(x,y)log ,p(x)\&=mathrm{H} (X,Y)+sum _{{xin {mathcal  X}}}p(x)log ,p(x)\&=mathrm{H} (X,Y)-mathrm{H} (X).end{aligned}}


貝葉斯規則


條件熵的貝葉斯規則英语Bayes' rule表述爲


H(Y|X)=H(X|Y)−H(X)+H(Y).{displaystyle H(Y|X),=,H(X|Y)-H(X)+H(Y),.}H(Y|X),=,H(X|Y)-H(X)+H(Y),.

證明. H(Y|X)=H(X,Y)−H(X){displaystyle H(Y|X)=H(X,Y)-H(X)}H(Y|X)=H(X,Y)-H(X) and H(X|Y)=H(Y,X)−H(Y){displaystyle H(X|Y)=H(Y,X)-H(Y)}H(X|Y)=H(Y,X)-H(Y)。對稱性意味著 H(X,Y)=H(Y,X){displaystyle H(X,Y)=H(Y,X)}H(X,Y)=H(Y,X)。將兩式相減即爲貝葉斯規則。



推广到量子理论


在量子信息论中,条件熵都概括为量子条件熵。



參考文獻





  1. ^ Cover, Thomas M.; Thomas, Joy A. Elements of information theory 1st. New York: Wiley. 1991. ISBN 0-471-06259-6. 









Popular posts from this blog

Y

Mount Tamalpais

Indian Forest Service