MLaPP アドベントカレンダー4日目：Ch.4 Gaussian models

4章長くてつらい．4.3が1番重要と思う．PRML 2章でも正規分布の部分は結構重たかったんだけど，それだけ重要だということだと思う．途中で積ん読になるならこの章だと思うので，序盤の山場と思われ．初日に書いた通り，自分も1, 2, 3章読んで止まってたので4章で本棚にしまったのだろう…．

Introduction

- みんな大好き多変量正規分布(MVN)
- 悲しいことに著者曰くこの章の数学レベルは他の章に比べると高い！とのこと（特に線型代数と行列計算の観点で）
- しかし高次元データを扱う場合は絶対必要だよね，とのこと
Basics
- D次元のMVNの確率密度関数は
- $N(x|\mu,\Sigma) \equiv \frac{1}{(2\pi)^{D/2}|\Sigma|^{1/2}} \exp \left[ - \frac{1}{2} (x-\mu)^T \Sigma^{-1} (x-\mu)\right]$
- expの中はデータベクトル $x$ と平均ベクトル $\mu$ のマハラノビス距離である
- 共分散行列 $\Sigma$ の固有値分解することでより理解しやすい
- $\Sigma = U \Lambda U^T$
- ここでUは $U^T U = I$ を満たす固有値ベクトルの直交行列であり， $\Lambda$ は固有値の対角行列
- このとき
- $\Sigma^{-1} = U^{-T} \Lambda^{-1} U^{-1} = U \Lambda^{-1} U^T = \sum\limits_{i=1}^D \frac{1}{\lambda_i} u_i u_i^T$
- ここで， $u_i$ はi番目の固有値ベクトルを含むUのi番目の列
- そのため，マハラノビス距離は次のように書き換えることができる
- $(x - \mu)^T \Sigma^{-1} (x - \mu) = (x - \mu)^T (\sum\limits_{i=1}^D \frac{1}{\lambda_i} u_i u_i^T) (x - \mu)$
- $= \sum\limits_{i=1}^D \frac{1}{\lambda_i} (x-\mu)^T u_i u_i^T (x-\mu) = \sum\limits_{i=1}^D \frac{y_i^2}{\lambda}$
- ここで， $y_i = u_i^T (x - \mu)$
- ここからわかる解釈として，ある正規分布の等確率密度のコンターは楕円であり，固有ベクトルは楕円の中心を，固有値は長径と短径を表す
Maximum entropy derivation of the Gaussian
- 多変量正規分布はある平均と共分散の下で，エントロピーを最大化する分布である

Gaussian discriminant analysis

- MVNによって生成モデル的な条件付き確率密度を定義することができ，これは(Gaussian) discriminant analysis (GDA)と呼ばれる
- これは各クラスの共分散行列が対角行列であれば，ナイーブベイズと等価
- 各クラスの条件付き確率密度の下でxの確率が計算されたとき，xから各クラスの $\mu$ までのマハラノビス距離を計算でき
- これは最近隣セントロイドへの分類器である
Quadratic discriminant analysis (QDA)
- 生成モデル分類器の式(2.13)にガウス分布を適用すると式(4.33)
- これはxの二次式になっているのでquadratic discriminant analysis (QDA)と呼ばれる
Linear discriminant analysis (LDA)
- 共分散行列がクラス間で共有されている，つまり $\Sigma_c = \Sigma$ のような特殊ケースでは式(4.33)は式(4.35)
- するといろいろキャンセルアウトされて， $p(y=c|x, \theta)$ は式(4.38)のようにsoft-max関数で書ける
- これは統計物理の分野ではBoltzmann分布と呼ばれる
- 式(4.38)は対数をとると，xの線形関数となるので2つのクラス間の決定境界は直線になる．そのためLDAと呼ばれる
- 事後確率をより直接的に導出するのがmulti-class rogistic regression or multinomial rogistic regressionである
- これらの違いはSection 8.2, Section 8.6で詳細に述べる
Regularized LDA
- 共分散行列 $\Sigma_c = \Sigma$ と仮定した上に， $\Sigma$ の事前分布に逆ウィッシャート分布を用いてMAP推定をする
- これは正規化項が入るのでregularized discriminant analysis (RDA)と呼ばれる(Hastie et al., 2009)
Nearest shrunken centroid classifier
- 高次元の問題では精度や解釈しやすさの観点から，特徴量の部分集合にのみ依存する方法が望ましい
- 一つの方法はSection 3.5.4で述べた相互情報量を用いたスクリーニング
- 別の方法として，このnearest shrunken centroid classifier
- 基本的アイデア
  - sparsity-promoting (Laplace) priorを用いたdiagonal LDAのMAP推定
  - クラス固有の特徴量平均 $\mu_{cj}$ をクラス独立特徴量平均 $m_j$ とクラス固有オフセット $\delta_{cj}$ を用いて
  - $\mu_{cj} = m_j + \delta_{cj}$
  - で表す．ここで， $\delta_{cj}$ の項が厳密に0になるような事前分布をおき，MAP推定を行う
  - たとえば，特徴量jにおいて，すべてのcにおいて $\delta_{cj} = 0$ になれば，特徴量jはクラス分類に役立たないことがわかる
  - 詳細は(Hastie et al. 2009)

Inference in jointly Gaussian distribution

Statement of the result
- 式(4.69)がとても重要
Information form
- 一般的には正規分布は $\mu$ と $\Sigma$ によって表す．これはmoment parametersと呼ぶ
- しかし，場合によってはcanonical parameter, natural parameterを用いることも役立つ
- $\Lambda = \Sigma^{-1},\ \xi = \Sigma^{-1} \mu$
- canonical parameterを用いるとMVNはinformation formで書ける（詳しくはSection 9.2 指数型分布族)
- $N_c (x|\xi, \Lambda) = (2 \pi)^{-D/2} |\Lambda|^{1/2} \exp (-\frac{1}{2} (x^T \Lambda x + \xi^T \Lambda^{-1} \xi - 2 x^T \xi))$
- information formでも周辺確率や条件付き確率が書ける
- 特に，周辺確率はmoment formが，条件付き確率はinformation formが簡単
Proof of the result
- シューア補行列を使ったここらへんの式展開は超重要(PRMLにもありましたね…)

Linear Gaussian systems

- xが隠れ変数，yがnoisy observationでAx + bとなるような線形システム

The Wishart distribution

- ウィシャート分布はガンマ分布の正定値行列への一般化
- Press (Press, 2005)は「多変量統計において重要性と有用性の観点で，ウィッシャート分布は正規分布の次のランクだ」と言っている
- ウィシャート分布は式(4.159)
- 正規分布のベイズ推定するときに，共分散行列の事前分布でよく使うのが逆ウィシャート分布

最初にも書いた通り，正規分布は様々な統計モデルで用いられる上に，想像の範囲内の動きをする確率分布なので，いろんなモデルの具体例を考えるときにも有用ですよね．

Fire and Motion