指数型分布族とはなんぞその2

情報幾何の観点から指数型分布族を眺めるその2です．前回よりはもう少し内容のあることを書きたいと思います．前回のエントリーを書いた後に指数型分布族の空間におけるデータ解析法について(pdf)を見つけてとてもわかりやすいので死にたくなりました．でも，このエントリーではもう少し初歩的なことをまとめておきたいと思います．

前回，「指数型分布族とはexpの中身が $\theta$ に対して線形であるってこと？」みたいなことを書いたのですが，「指数型分布族とはexpの中身が $\theta$ に対して線形な項とポテンシャル関数 $\psi (\theta)$ で表せる」が正しい見方なのかなと思い至りました．

多項分布（簡単のため三項分布）による例

情報幾何的な視点で見るために，まず簡単な多項分布でその例を示します．三項分布モデルとは確率変数 $x$ が1,2,3のいずれかの値を確率 $p_1, p_2, p_3$ で取るモデルです．確率なので $p_1 + p_2 + p_3 =1$ が成り立ちます．なので， $p_3$ は実際は不要なので， $(\eta_1, \eta_2) = (p_1, p_2)$ と置き換えましょう．また， $x=i$ のとき1, $x \not = i$ のとき0となるクロネッカーのδとして $\delta_i (x)$ をおきます．
よって，繰り返し回数が1回の三項分布モデルの確率密度関数は
　　　　　 $p(x;\eta_1, \eta_2) = p_1^{\delta_1(x)} p_2^{\delta_2(x)} p_3^{\delta_3(x)}$
　　　　　　　　　　 $= \eta_1^{\delta_1(x)} \eta_2^{\delta_2(x)} (1-\eta_1 - \eta_2)^{1- \delta_1(x) - \delta_2 (x)}$
と書けます．対数尤度関数は
　　　　　 $\log p(x;\eta_1, \eta_2) = \delta_1 \log(\eta_1) + \delta_2 \log(\eta_2) + (1- \delta_1(x) - \delta_2 (x)) \log (1-\eta_1 - \eta_2)$
です．ここで，新たなパラメータとして
　　　　　 $\theta_1 = \log \frac{p_1}{1-p_1-p_2}$ , $\theta_2 = \log \frac{p_2}{1-p_1-p_2}$
を導入します．これが何かということは後で説明するとして，このパラメータ変換の下での対数尤度関数を書き直すと，
　　　　　 $\log p(x;\eta_1, \eta_2) = \theta_1 \delta_1(x) + \theta_2 \delta_2(x) - \log(1 + e^{\theta_1} + e^{\theta_2})$
と書くことができます．第一項が $\theta$ と $x$ の線形関数，第三項は $\theta$ のみの項ですが，この第三項をポテンシャル関数 $\psi(\theta)$ と呼ぶことにしましょう．このポテンシャル関数は次のような性質を持ちます．
　　　　　 $\frac{\partial}{\partial \theta_i}\psi (\theta) = \frac{e^{\theta_i}}{1+e^{\theta_1} + e^{\theta_2}} = p_i = \eta_i$
よってポテンシャル関数を $\theta_i$ で偏微分することで確率 $p_i$ が得られています．

双対平坦空間

情報幾何において，モデル多様体がどの程度曲がっているのかを評価する方法があるのですが，とりあえずそれは置いておいて，あるモデル多様体がe-接続の下で曲がっていない（平坦）とき，m-接続の下でも曲がっていない（平坦）であることが知られています．これは双対平坦空間と呼ばれ，非常に扱いやすく応用も広い空間です．

双対平坦空間 $M$ において，計量 $g$ とe-接続，m-接続が与えられているとき， $M$ はe-接続に対して平坦なので，e-接続の下でのアフィン座標系 $\theta$ を取ることができます．同様に，m-接続に対しても平坦なのでm-接続の下でのアフィン座標系を取ることが可能なのですが， $\theta$ 座標系と相性の良い $\eta$ 座標系を取ることにします．
$\theta$ 座標系から $\eta$ 座標系への変換は計量 $g_{ij}(\theta)$ に対して
　　　　　 $\frac{\partial^2}{\partial_i \partial_j} \psi (\theta) = g_{ij}(\theta)$
を満たす $\theta$ の凸関数 $\psi (\theta)$ （ポテンシャル関数）を取ることができ，
　　　　　 $\eta_i = \frac{\partial}{\partial \theta_i} \psi(\theta)$
が成り立ちます．このような座標変換をルジャンドル変換と呼びます．同様に
　　　　　 $\phi (\eta) = \theta_1 \eta_1 + \theta_2 \eta_2 - \psi(\theta(\eta))$
を定義すると，
　　　　　 $\theta_i = \frac{\partial}{\partial \eta_i} \phi(\eta)$
が成り立ちます．このような関係性を双対座標系と呼びます．一般に $\theta$ を自然パラメータ， $\eta$ を期待値パラメータと呼びます．よって，指数型分布族とはこのような双対座標系で考えることができる確率分布族であると捉えることができるのかもしれません．ちなみに上記の多項分布の例における $\theta$ 座標系はe-接続の下でのアフィン座標系になっています．

正規分布モデルによる例

最後に，正規分布を（指数型分布族として）双対座標系の観点から見てみることにします．正規分布は
　　　　　 $p(x; \mu, \sigma) = \frac{1}{\sqrt(2 \pi \sigma^2)} \exp (- \frac{1}{2\sigma^2} (x - \mu)^2)$
であり，対数尤度関数は
　　　　　 $\log p(x; \mu, \sigma) = \frac{\mu}{\sigma^2} x - \frac{1}{2\sigma^2} x^2 - \frac{\mu^2}{2\sigma^2} - \frac{1}{2} \log (2 \pi \sigma^2)$
と書けます．ここで， $t_1(x) = x, t_2(x) = x^2$ とおき， $\theta_1 = \frac{\mu}{\sigma^2}, \theta_2 = - \frac{1}{2\sigma^2}$ とおくことで，
　　　　　 $\log p(x; \mu, \sigma) = \theta_1 t_1(x) + \theta_2 t_2 (x) - (- \frac{\theta_1^2}{4 \theta_2} + \frac{1}{2}\log(- \frac{\pi}{\theta_2}))$
と書き換えることができます．すると，これまでの議論より第三項はポテンシャル関数 $\psi (\theta)$ になっているはずです．なので， $\theta_i$ で偏微分してみると
　　　　　 $\frac{\partial}{\partial \theta_1} \psi (\theta) = - \frac{\theta_1}{2\theta_2} = \mu = E[x] = \eta_1$
　　　　　 $\frac{\partial}{\partial \theta_2} \psi (\theta) = \mu^2 + \sigma^2 = E[x^2] = \eta_2$
となっていることが確認できます．つまり，上記の $\theta_i$ の置き方によってポテンシャル関数から期待値が導出され，これは双対関係にあるということです．この見方は単純に $\mu, \sigma$ といったよく知られたパラメータで見るよりも見通しが良い場合もありえることを示しています．

まとめ

双対関係，超重要．