MLaPP アドベントカレンダー11日目:Ch.11 Mixture models and the EM algorithm
この章は混合モデルとEMアルゴリズムについて.前半の混合モデルについてはちゃんと読めたけど,EMについてはそんなに詳しく読めていないし,知っているところも多かったのでだいぶ飛ばしてしまった.混合モデル周辺はこれまでそんなに触ったことがないので,実装して挙動はきちんと確かめたいと思います.
Latent variable models
-
- グラフィカルモデルは2変数間の依存関係をエッジで表現するので高次元
- 別のアプローチとして観測変数は共通の隠れ要因から生まれているので相関があるという考え方
- これがLatent variable model
- このモデルは潜在変数のないモデルよりフィットが難しいが2つの理由で重要な利点がある
- (1)直接的に相関を表すモデルより少ないパラメータ数(Fig 11.1)
- (2)LVMにおける隠れ変数はデータ圧縮表現のボトルネックとして作用
Mixture models
-
- 最もシンプルな場合:が離散潜在変数を表す
- これらに対して離散的な事前分布を用いる
- 尤度は
- ここで: k番目のbase distribution
- これらのモデルはK個のbase distributionを混ぜるのでmixture modelとして知られる
- これはの凸結合である
- Mixture of Gaussians
- 最も広く使われる混合モデルはmixture of Gaussians, Gaussian mixture model
- このモデルではbase distributionはの多変量正規分布
- Mixture of multinoullis
- 多くの種類のデータに関する密度モデルを定義するために混合モデルを使う
- たとえばD次元のビットベクトルでデータが構成されているとき
- 適切なクラス条件付き密度波ベルヌーイ積である
- モデルをよりパワフルにするために潜在変数を導入
- 構成分布は因数分解できるが,混合分布はそうではない
- このように単一のベルヌーイ積モデルと異なり,変数間の相関を捉えられる
- Using mixture models for clustering
- 混合モデルの2つのアプリケーション
- Mixtures of experts
- 分類や回帰には識別モデルも使えるが,入力空間の異なる部分に対して3つの異なる回帰モデルを適用するのが望ましい場合がある
- このようなモデルはmixture od experts (MoE)と呼ばれる(Jordan and Jacob, 1994)
- 基本アイデア:各サブモデルは入力空間のある部分において"expert"として考える
- はgating functionを呼ばれる
- 入力値に応じてどのexpertsを用いるかを決める
- このモデルのfitについてはSec 11.4.3で議論
- expertとして任意のモデルが組み込めることは明らか
Parameter estimation for mixture moels
- Unidentifiability
- Computing a MAP estimate is non-convex
The EM algorithm
EMはそれなりに知っているので流し読み程度で.
Model selection for latent variable models
Fitting models with missing data
コメント
だいたい章の最初は読んでるけど後半は読めてない気がする.2週目に期待.あと寿司たべたい.