指数型分布族とはなんぞ

皆さん，ご存じの指数型分布族(exponential family)について私の拙い理解をまとめておきたいと思います．指数型分布族といえば，難しめの統計学や機械学習の本を読んだときに突如出てきて，「え，何それ，指数分布じゃないの？僕，指数分布しか知らないよ−」と思っている読者を撲殺し，しかし，殺されている本人は「まぁ，たぶん指数分布みたいなものだろう，とりあえず読み進めよう」と見ない振りをしているアレです．えぇ．私もそういう理解です．しかし，このままではいかんので，そこらへんにあった文献を元に簡単な理解をまとめておきたいと思います．ちなみに私の初エンカウンターはPRMLでした．てか，（私が学んだゆるい）大学時代の講義ではこんなもの習わなかったのですが，この指数型分布族とはどういう統計の授業では学ぶモノなのでしょう…．単なる勉強不足かもしれませんが…．

あいつもこいつも指数型分布族

まず，PRMLを読んでいるときに出会う記述として，PRML(上) p.66に

共役事前分布の例としては，多項分布のパラメータについてのディリクレ分布や，ガウス分布の平均についてのガウス分布などがある．これらの分布はいずれも指数型分布族(exponential family)の例でもある．

と書いてあり「は？」となります．しかしPRMLは良い本なので，数々の重要な性質を持つこの指数分布族については後で詳しく述べると書いてあります．で，読み進めていくとPRML(上) pp.110-111では

本章で今までに学んできた確率分布は（混合ガウス分布を除いて）指数型分布族と呼ばれる分布の大きな族の例となっている．(Duda and Hart, 1973; Bernardo and Smith, 1994)．指数型分布族には，多くの重要な共通した性質があり，これらの性質について一般的な観点から論じておく．
$\bf x$ 上の指数型分布族は $\bf \eta$ をパラメータとし，次式で定義される分布の集合である．
$p({\bf x |\eta}) = h({\bf x}) g({\bf \eta}) \exp \{ {\bf \eta}^T {\bf u} ({\bf x})\}$
ただし， $\bf x$ はスカラーでもベクトルでも，また離散でも連続でも良い．また， $\bf \eta$ は分布の自然パラメータと呼ばれ， $\bf u(x)$ は $\bf x$ の任意の関数である．関数 $g(\bf \eta)$ は分布を正規化するための係数と解釈できるので，
$g({\bf \eta}) \int h({\bf x}) \exp \{ {\bf \eta^T u(x)} \}d{\bf x} = 1$
を満たす．ここで， $\bf x$ が離散変数であれば，積分を総和と置き換える．

とある．ここで定義は終わり，後は多項分布や正規分布が指数型分布族の標準形に変形できること，指数型分布族のパラメータベクトルの最尤推定がしやすいこと，任意の分布について共役事前分布が存在すること等々が説明される．要は多くの統計モデルで出てくる分布が指数型分布族であり，それらはめっちゃいい性質をもっている，ということです．

並みの天才・秀才であればこの記述だけで指数型分布族が理解できると思うのですが，凡人にとってはどうにもスッキリしません．なんてったって正規分布も多項分布もディリクレ分布もガンマ分布も指数型分布族なのです．"指数型分布族"に"確率分布"という文字を投げ込んでも文章が成り立ってしまうではありませんか．統一的に議論できることもわかるし，良い性質なのもわかるのだけれど．

情報幾何から見た指数型分布族

そこで，情報幾何の観点から見てみることにしましょう．情報幾何が何かということについて語れるほど私はさっぱり詳しくないのですが，いくつかの文献を読んで自分が指数型分布族に対する理解が深まったのでここにまとめます．もっと気になる人は勝手に勉強してくれ．あと数学的に厳密な話はできません．以下の議論は赤穂さんの本（カーネル多変量解析）や甘利先生の連載記事（情報幾何の新展開）を参考にしています．

まず，多様体というものを考えます．これは，非常に狭い範囲でみれば普通のユークリッド空間と同じ構造（接空間）をもつが，広い範囲で見ると，ユークリッド空間のようにまっすぐとは限らず一般には曲がった構造をしています．なぜこのような多様体を考えるのかを最初に説明すると，指数型分布族は
$p({\bf x;\theta}) = \exp (\sum_{i=1}^d \theta_i F_i ({\bf x}) - C({\bf x}) - \psi ({\bf \theta}) )$
と書ける分布であり（PRMLでの表現をexpの中に入れると同じ），パラメータ $\bf \theta$ と確率変数 $\bf x$ が絡み合う部分では $\bf \theta$ について線形関数となっています．そして， $\bf \theta$ を座標系として取ったときに，その空間は多様体であるとみなすことができます．「 $\bf \theta$ を座標系として取ったとき」とサラっと言いましたが， $\bf \theta$ と $\bf x$ が線形なので空間を張っているイメージです．

カーネル多変量解析p.161によると，

局所的な接空間の構造を定める計量としてフィッシャー情報行列を取るのが確率モデルとして自然であると示されている．一方で，接空間のつなぎ方を決める接続としては，統計的な不変性だけからは一つの決め方に特定されず，実数 $\alpha$ を使った自由度を持っている．つまり，空間構造は一意ではなく， $\alpha$ を決めるごとに構造が一つ決まる．

とのことで，接空間をどのようにつなぐかを表す $\alpha$ が非常に重要そうだということがわかります．甘利先生は指数型分布族は極めて素直な分布族であると言います．これは規格化定数を表す関数 $\psi ({\bf \theta})$ が凸関数でキュムラント生成関数になっているためです．この凸関数から双対平坦な幾何構造が導かれます．

同じくカーネル多変量解析pp.161-162によると，

指数分布族では，その中でも $\alpha = \pm 1$ の場合が特に重要であり，それぞれの構造の中で「まっすぐな」線（測地線と呼ぶ）が直線として表され，空間全体が「平坦」とみなせるような座標系が存在する．
指数分布族の場合， $\alpha =1$ で平坦となる座標系は $\bf \theta$ であり，特に正定値行列の場合は $V^{-1}$ である．一方で， $\alpha =-1$ で平坦となるのは
$\eta_i = \int F_i ({\bf x})p({\bf x;\theta}) d \bf x$
で定義される座標系であり，これはちょうど正定値行列の場合 $V$ そのものを座標系に取ることに相当する． $\bf{\theta}$ と $\bf{\eta}$ には一種の双対構造があるが，正定値行列の場合はそれらが互いに逆行列の関係で結ばれている．

とあります．あ，PRMLの式とカーネル多変量解析の式ではパラメータの文字が異なるのでご注意ください．そして，これより深い議論は甘利先生や赤穂さんの情報幾何に関する文献をご覧ください．

つまり，どういうこと？

指数型分布族は結局，（ある座標系から見ると）線形とみなすことができるので良い性質を持つ，と解釈することができるのではないでしょうか？ここまで書いてみて，これって逆にわかりにくくなっているのでは？と思ったりもしますが，指数型分布族の定義式だけ見ていてはわからない見方が提示されていたのでまとめてみた次第．

追記

指数型分布族とはなんぞその2

参考

指数型分布族のメモ