Self-information
情報量

確率 p で起こる事象 E について,その事象の情報量 I(E) は

I(E) = log2(1/p) (単位はbit)

で定義される.事象の情報量としてこの式が用いられる理由を解説する.

情報の量の尺度に求められる性質

情報理論の教科書の多くは情報の量の尺度を数学的に定義することから始まる. 一般に使われる「情報」という言葉は,「A 市の天気は雨だった」といった通報から 得られるような,自分が新しく知った事実という意味で使われる. 通報に含まれる情報の量が多いか少ないかは必ずしも通報の長さで決まる 訳では無い.例えばある年の A 市の天気について「4 月 1 日は晴, 4 月 2 日は雨.」 という通報 1 と,「4 月 1 日は晴, 4 月 1 日は晴.」という同じことを繰り返しただけの通報 2 は,長さは同じだが前者のほうが情報の量が多いことは明らかだろう. 通報 1 と 2 による,受け取る情報の量の違いは知った事実が起こる確率に関係すると考えることができる. 簡単のために A 市の天気は「晴,雨,曇,雪」の 4 種類だけであり, 生起確率が全て 1/4 であり, 天気の生起確率はそれ以前の天気によらず独立であると仮定する. このとき,通報 1 は確率 1/16 で起こることを伝えているのに対して 通報 2 は確率 1/4 で起こることを伝えている. このことから通報に含まれる情報の量は事象(この場合は天気)の確率に関係し, 確率が低い事実を伝える通報の方が含まれている情報の量が多い と考えるのが自然であると言える. また,通報 1 が含む情報の量は「4 月 1 日は晴.」という通報と 「4 月 2 日は雨.」という通報が含む情報の量の和であるべき, ということも自然な要求と言える.

このようなことを考慮に入れ,情報の量を数学的に表す尺度を考える. 現実社会では,たとえば雪に関係するビジネスに従事している者には確率が同じであっても晴の情報よりも雪の情報のほうが価値があることもあり得るがそれを数学的に扱うことは困難なのでここでは無視し,起こる確率によってのみ情報の量が決まるものとする. このことから情報の量の尺度は通報が知らせる事象の確率の関数となり, 確率 p に対して f(p) と書ける.(ただし p は 0 以上 1 以下の実数) 上で述べた考察などから,情報の量の尺度として関数 f(p) に自然に求められる性質として以下のものが条件として挙げられる.

  1. 確率が小さい事象が起こったという通報のほうが 確率が大きいものに対して情報の量が大きい,すなわち f(p) は単調減少関数である.
  2. 独立な事象 E1, E2 の生起確率をそれぞれ p1, p2 とする.E1, E2 の両方が起こったことを伝える通報の情報の量は E1 が起こった事を伝える通報の情報の量と E2 が起こった事を伝える通報の情報の量の 和に等しい.E1E2 は独立なのでそれら両方が起こる確率は p1p2 であるから, f(p1p2) = f(p1) + f(p2) である.
  3. 近い確率で起こる事象の通報の情報の量は近い値であるべきであるから, f(p) は連続関数である.

情報量の定義

前節で述べた 3 つの条件を満たす関数は

f(p) = C・log2(1/p) (C は正の定数)

のみであること,すなわち情報の量の尺度として求められる自然な要求を満たす ためには確率の逆数の対数関数を用いなければならないことを示す.

証明

前節条件 2 より,0 以上 1 以下の実数である x, y について

f(xy) = f(x) + f(y)            (式 1)

が成り立つ.ここで以下に定義する関数 g(z) を考える.

g(z) = f(2-z) (ただし,z は 0 以上の実数)  (式 2)

前節条件 3 よりf(p)が連続関数であるから g(z)も連続関数である. (式 2)より,任意の非負数 x, y について,

g(x + y) = f(2-(x + y))
続けて変形してゆくと,
=f(2-x・2-y)
(式 1)より,
=f(2-x) + f(2-y)
(式 2)より,
=g(x) + g(y)

すなわち,
g(x + y) = g(x) + g(y)            (式 3)
が成り立つ.

n が正整数のとき,xnxn 回繰り返して和をとったものと考え, (式 3)を繰り返し適用することで,
g(xn) = ng(x)              (式 4)
が成り立つ.

m を非負の整数,n を正の整数とすると(式 4)より,
ng(m/n) = g(m/nn)
= g(m)
= g(1・m)
= mg(1)

結局,
ng(m/n) = mg(1)
すなわち,
g(m/n) = g(1)・m/n
が成り立つ.

m/n は任意の非負の有理数であるから, 非負の有理数 q に書き換えることで,非負の有理数 q については
g(q) = g(1)・q
が成り立つ.任意の非負の有理数についてこれが成り立つ ため,g(z)が連続関数であることから非負の 実数 z について
g(z) = g(1)・z
であると言える.

ここで(式 2)により関数 g(z) を f(2-z)に戻すと,
f(2-z) = f(1/2)・z
が得られる. 2-z = x として変数変換を 行うと,
f(x) = f(1/2)・log2(1/x)   (x は 0 より大きい 1 以下の実数)
となる.f(0) は x→0の極限を考えて 無限大であると定義する.

f(1/2)は定数であり,前節条件 1 を満たすにはこれが 正の数となるようにする必要がある.

結局,事象 E の確率が p であるとき, 前節 3 つの条件をすべて満たす関数は

f(p) = C・log2(1/p) (C は正の定数)

の形であることが必要条件であることが言えた. 逆にこの形の関数であれば 3 つの条件を満たすことも言える.

情報量の尺度としては定数係数 C は正の値であれば 何でも良いが,特に C = 1 となるように,すなわち p = 1/2 のときの情報量が 1 となるように決めた情報量の単位
I(E) = log2(1/p)
を[bit]と呼ぶ.

参考文献

嵩 忠雄, "情報と符号の理論入門," 昭晃堂, 1989.


Updated in June 23, 2013, Yamamoto Hiroshi Web