MLaPP アドベントカレンダー4日目:Ch.4 Gaussian models

4章長くてつらい.4.3が1番重要と思う.PRML 2章でも正規分布の部分は結構重たかったんだけど,それだけ重要だということだと思う.途中で積ん読になるならこの章だと思うので,序盤の山場と思われ.初日に書いた通り,自分も1, 2, 3章読んで止まってたので4章で本棚にしまったのだろう….

Introduction

    • みんな大好き多変量正規分布(MVN)
    • 悲しいことに著者曰くこの章の数学レベルは他の章に比べると高い!とのこと(特に線型代数と行列計算の観点で)
    • しかし高次元データを扱う場合は絶対必要だよね,とのこと
  • Basics
    • D次元のMVNの確率密度関数
    • expの中はデータベクトルと平均ベクトルのマハラノビス距離である
    • 共分散行列固有値分解することでより理解しやすい
    • ここでUはを満たす固有値ベクトルの直交行列であり,固有値の対角行列
    • このとき
    • ここで,はi番目の固有値ベクトルを含むUのi番目の列
    • そのため,マハラノビス距離は次のように書き換えることができる
    • ここで,
    • ここからわかる解釈として,ある正規分布の等確率密度のコンターは楕円であり,固有ベクトルは楕円の中心を,固有値は長径と短径を表す
  • Maximum entropy derivation of the Gaussian

Gaussian discriminant analysis

    • MVNによって生成モデル的な条件付き確率密度を定義することができ,これは(Gaussian) discriminant analysis (GDA)と呼ばれる
    • これは各クラスの共分散行列が対角行列であれば,ナイーブベイズと等価
    • 各クラスの条件付き確率密度の下でxの確率が計算されたとき,xから各クラスのまでのマハラノビス距離を計算でき
    • これは最近隣セントロイドへの分類器である
  • Quadratic discriminant analysis (QDA)
    • 生成モデル分類器の式(2.13)にガウス分布を適用すると式(4.33)
    • これはxの二次式になっているのでquadratic discriminant analysis (QDA)と呼ばれる
  • Linear discriminant analysis (LDA)
    • 共分散行列がクラス間で共有されている,つまりのような特殊ケースでは式(4.33)は式(4.35)
    • するといろいろキャンセルアウトされて,は式(4.38)のようにsoft-max関数で書ける
    • これは統計物理の分野ではBoltzmann分布と呼ばれる
    • 式(4.38)は対数をとると,xの線形関数となるので2つのクラス間の決定境界は直線になる.そのためLDAと呼ばれる
    • 事後確率をより直接的に導出するのがmulti-class rogistic regression or multinomial rogistic regressionである
    • これらの違いはSection 8.2, Section 8.6で詳細に述べる
  • Regularized LDA
    • 共分散行列と仮定した上に,の事前分布に逆ウィッシャート分布を用いてMAP推定をする
    • これは正規化項が入るのでregularized discriminant analysis (RDA)と呼ばれる(Hastie et al., 2009)
  • Nearest shrunken centroid classifier
    • 高次元の問題では精度や解釈しやすさの観点から,特徴量の部分集合にのみ依存する方法が望ましい
    • 一つの方法はSection 3.5.4で述べた相互情報量を用いたスクリーニング
    • 別の方法として,このnearest shrunken centroid classifier
    • 基本的アイデア
      • sparsity-promoting (Laplace) priorを用いたdiagonal LDAのMAP推定
      • クラス固有の特徴量平均をクラス独立特徴量平均とクラス固有オフセットを用いて
      • で表す.ここで,の項が厳密に0になるような事前分布をおき,MAP推定を行う
      • たとえば,特徴量jにおいて,すべてのcにおいてになれば,特徴量jはクラス分類に役立たないことがわかる
      • 詳細は(Hastie et al. 2009)

Inference in jointly Gaussian distribution

  • Statement of the result
    • 式(4.69)がとても重要
  • Information form
    • 一般的には正規分布によって表す.これはmoment parametersと呼ぶ
    • しかし,場合によってはcanonical parameter, natural parameterを用いることも役立つ
    • canonical parameterを用いるとMVNはinformation formで書ける(詳しくはSection 9.2 指数型分布族)
    • information formでも周辺確率や条件付き確率が書ける
    • 特に,周辺確率はmoment formが,条件付き確率はinformation formが簡単
  • Proof of the result
    • シューア補行列を使ったここらへんの式展開は超重要(PRMLにもありましたね…)

Linear Gaussian systems

    • xが隠れ変数,yがnoisy observationでAx + bとなるような線形システム

The Wishart distribution

    • ウィシャート分布はガンマ分布の正定値行列への一般化
    • Press (Press, 2005)は「多変量統計において重要性と有用性の観点で,ウィッシャート分布は正規分布の次のランクだ」と言っている
    • ウィシャート分布は式(4.159)
    • 正規分布ベイズ推定するときに,共分散行列の事前分布でよく使うのが逆ウィシャート分布

コメント

最初にも書いた通り,正規分布は様々な統計モデルで用いられる上に,想像の範囲内の動きをする確率分布なので,いろんなモデルの具体例を考えるときにも有用ですよね.