ともにゃん的データ分析ブログ

勉強したことの備忘録とかね

【短編小説】カルバックライブラー・ダイバージェンス

ともにゃんは熱狂的なベイズ教の信仰者である.

とある日,ともにゃんは仕事で,お客さんから仮説検定を使うよう強要され,使用した.

ともにゃんは,ベイズ警察に逮捕されてしまった.禁固10年.カレンダーもなく,外の景色も見れない,温度は通年25度に調整された牢屋で過ごすことになった.

ともにゃん「ああ,僕の人生は終わりだ」

時は流れ,監獄生活も残り3日となった.

ともにゃん「長い監獄生活だった.ところで,いま季節はどうなっているんだろう」

そんな時,刑務官から雪が降っているということ聞いた.

ともにゃん「雪が降っているのか.季節は冬なんだろうな」

ともにゃんは,冬の天気モデル p_{冬} を頭の中で構築した.

ともにゃん「ということは, p_{冬}(天気=晴れ)=\frac{2}{4},\ p_{冬}(天気=雨)=\frac{1}{4},\ p_{冬}(天気=雪)=\frac{1}{4}くらいだろうな.今日は雪が降っているわけだから,情報量としては  -\log_{2}\frac{1}{4} ビットということか.まあまあ驚いたぞ」

次の日の天気は晴れだったそうだ.

ともにゃん「ということは,情報量としては  -\log_{2}\frac{2}{4} ビットということだな.冬は晴れの日が多いし,あんまり驚かないな 」

さらに次の日の天気は雨だったそうだ.

ともにゃん「ということは,情報量としては  -\log_{2}\frac{1}{4} ビットということだな.まあまあ驚いたぞ 」

ともにゃんは刑期を終え,出所した.

ともにゃん「これからは模範的ベイジアンとして頑張っていくぞ!」

気合を入れ直したのもつかの間,ともにゃんは驚いた.

ともにゃん「やっと外に出られた.ってええ!?季節が夏じゃないか!!!」

そう,季節は夏だったのだ.

ともにゃん「おったまげた...一般に,夏季のお天気確率は  p_{夏}(天気=晴れ)=\frac{5}{10},\ p_{夏}(天気=雨)=\frac{4}{10},\ p_{夏}(天気=雪)=\frac{1}{10} だ.つまり僕は,情報量の意味で平均的に 1.5 ビット驚いたわけか!!!」

 夏季と冬季の天気交差エントロピー = -p_{夏}(天気=晴れ) \log_{2}p_{冬}(天気=晴れ) \\
\qquad -p_{夏}(天気=雨) \log_{2}p_{冬}(天気=雨) \\
\qquad -p_{夏}(天気=雪) \log_{2}p_{冬}(天気=雪) \\
\qquad = 1.5

ともにゃん「待てよ?もし刑務所の中で今の季節が夏だと分かっていたら,刑務官から天気を聞いた時に,平均的にどれくらい驚いたんだろう?計算してみると...約1.36ビットだ!」

 夏季の天気エントロピー = -p_{夏}(天気=晴れ) \log_{2}p_{夏}(天気=晴れ) \\
\qquad -p_{夏}(天気=雨) \log_{2}p_{夏}(天気=雨) \\
\qquad -p_{夏}(天気=雪) \log_{2}p_{夏}(天気=雪) \\
\qquad \simeq 1.36

ともにゃんは,あることに気がついた.

ともにゃん「そういえば,カルバックライブラー・ダイバージェンス(KLD)(相互情報量)は 夏季と冬季の天気交差エントロピー から 夏季の天気エントロピー 引いたものだ.そうか!KLDは僕が考えたモデルが情報量の平均(エントロピー)の意味で,あとどれだけ驚き度,つまり不確実性(情報量)を減らせるかを表したものなんだ!!今回でいうとKLDは約0.14ビット.これだけ不確実性を減らすことができるんだなあ」

こうしてともにゃんは,KLDを情報量の意味から理解したのであった.めでたしめでたし.


解説

要するに,エントロピーは,驚きや不確実性(  \log_{2}p_{夏}(天気) )の発生源が想定通りだった場合(  p_{夏}(天気) ),交差エントロピーは,驚きや不確実性(  \log_{2}p_{冬}(天気) )の発生源が想定通りでなかった場合(  p_{夏}(天気) )の平均情報量,ってことなのかな.