MLaPP アドベントカレンダー4日目:Ch.4 Gaussian models
4章長くてつらい.4.3が1番重要と思う.PRML 2章でも正規分布の部分は結構重たかったんだけど,それだけ重要だということだと思う.途中で積ん読になるならこの章だと思うので,序盤の山場と思われ.初日に書いた通り,自分も1, 2, 3章読んで止まってたので4章で本棚にしまったのだろう….
Introduction
- Basics
- Maximum entropy derivation of the Gaussian
Gaussian discriminant analysis
-
- MVNによって生成モデル的な条件付き確率密度を定義することができ,これは(Gaussian) discriminant analysis (GDA)と呼ばれる
- これは各クラスの共分散行列が対角行列であれば,ナイーブベイズと等価
- 各クラスの条件付き確率密度の下でxの確率が計算されたとき,xから各クラスのまでのマハラノビス距離を計算でき
- これは最近隣セントロイドへの分類器である
- Quadratic discriminant analysis (QDA)
- 生成モデル分類器の式(2.13)にガウス分布を適用すると式(4.33)
- これはxの二次式になっているのでquadratic discriminant analysis (QDA)と呼ばれる
- Linear discriminant analysis (LDA)
- 共分散行列がクラス間で共有されている,つまりのような特殊ケースでは式(4.33)は式(4.35)
- するといろいろキャンセルアウトされて,は式(4.38)のようにsoft-max関数で書ける
- これは統計物理の分野ではBoltzmann分布と呼ばれる
- 式(4.38)は対数をとると,xの線形関数となるので2つのクラス間の決定境界は直線になる.そのためLDAと呼ばれる
- 事後確率をより直接的に導出するのがmulti-class rogistic regression or multinomial rogistic regressionである
- これらの違いはSection 8.2, Section 8.6で詳細に述べる
- Regularized LDA
- 共分散行列と仮定した上に,の事前分布に逆ウィッシャート分布を用いてMAP推定をする
- これは正規化項が入るのでregularized discriminant analysis (RDA)と呼ばれる(Hastie et al., 2009)
- Nearest shrunken centroid classifier
- 高次元の問題では精度や解釈しやすさの観点から,特徴量の部分集合にのみ依存する方法が望ましい
- 一つの方法はSection 3.5.4で述べた相互情報量を用いたスクリーニング
- 別の方法として,このnearest shrunken centroid classifier
- 基本的アイデア
- sparsity-promoting (Laplace) priorを用いたdiagonal LDAのMAP推定
- クラス固有の特徴量平均をクラス独立特徴量平均とクラス固有オフセットを用いて
- で表す.ここで,の項が厳密に0になるような事前分布をおき,MAP推定を行う
- たとえば,特徴量jにおいて,すべてのcにおいてになれば,特徴量jはクラス分類に役立たないことがわかる
- 詳細は(Hastie et al. 2009)
Inference in jointly Gaussian distribution
- Statement of the result
- 式(4.69)がとても重要
- Information form
- Proof of the result
- シューア補行列を使ったここらへんの式展開は超重要(PRMLにもありましたね…)
Linear Gaussian systems
-
- xが隠れ変数,yがnoisy observationでAx + bとなるような線形システム