MLaPP アドベントカレンダー11日目：Ch.11 Mixture models and the EM algorithm

この章は混合モデルとEMアルゴリズムについて．前半の混合モデルについてはちゃんと読めたけど，EMについてはそんなに詳しく読めていないし，知っているところも多かったのでだいぶ飛ばしてしまった．混合モデル周辺はこれまでそんなに触ったことがないので，実装して挙動はきちんと確かめたいと思います．

Latent variable models

- グラフィカルモデルは2変数間の依存関係をエッジで表現するので高次元
- 別のアプローチとして観測変数は共通の隠れ要因から生まれているので相関があるという考え方
- これがLatent variable model
- このモデルは潜在変数のないモデルよりフィットが難しいが2つの理由で重要な利点がある
  - (1)直接的に相関を表すモデルより少ないパラメータ数(Fig 11.1)
  - (2)LVMにおける隠れ変数はデータ圧縮表現のボトルネックとして作用

Mixture models

- 最もシンプルな場合： $z_i \in \{1,\ldots,K \}$ が離散潜在変数を表す
- これらに対して離散的な事前分布 $p(z_i) = Cat(\pi)$ を用いる
- 尤度は $p(x_i | z_i = k) = p_k(x_i)$
- ここで $p_k$ : k番目のbase distribution
- これらのモデルはK個のbase distributionを混ぜるのでmixture modelとして知られる
- $p(x_i|\theta) = \sum_{k=1}^K \pi_k p_k(x_i|\theta)$
- これは $p_k$ の凸結合である
Mixture of Gaussians
- 最も広く使われる混合モデルはmixture of Gaussians, Gaussian mixture model
- このモデルではbase distributionは $\mu_k, \ \Sigma_k$ の多変量正規分布
- $p(x_i|\theta) = \sum_{k=1}^K \pi_k N(x_i|\mu_k, \Sigma_k)$
Mixture of multinoullis
- 多くの種類のデータに関する密度モデルを定義するために混合モデルを使う
- たとえばD次元のビットベクトルでデータが構成されているとき
- 適切なクラス条件付き密度波ベルヌーイ積である
- $p(x_i|z_i=k, \theta) = \prod_{j=1}^D Ber (x_i|\mu_{jk}) = \prod_{j=1}^D \mu_{jk}^{x_{ij}} (1- \mu_{jk})^{1-x_{ij}}$
- モデルをよりパワフルにするために潜在変数を導入
- $E[x] = \sum_k \pi_k \mu_k$
- $cov[x] = \sum_k \pi_k [\Sigma_k + \mu_k \mu_k^T] - E[x] E[x]^T$
- 構成分布は因数分解できるが，混合分布はそうではない
- このように単一のベルヌーイ積モデルと異なり，変数間の相関を捉えられる
Using mixture models for clustering
- 混合モデルの2つのアプリケーション
  - black-box density model
    - 各クラス条件付き確率を混合分布にすることでデータ圧縮，異常値検知，生成分類器などに有用
  - clustering
    - 基本アイデアはシンプル．まず混合分布にfitさせる．次に $p(z_i=k|x_i, \theta)$ を計算
    - これは点iがクラスターkに属する事後確率を表す
    - クラスターkの点iに対するresonsibilityとして式(11.6)で計算
    - このプロセスはsoft clusteringと呼ばれ，生成分類器で用いられる計算と同じ
    - $(1- \max r_{ik})$ を用いてクラスター割当の不確実性も表現できる
    - これが小さければ，MAP推定を用いてhard clusteringを計算するのが合理的
Mixtures of experts
- 分類や回帰には識別モデルも使えるが，入力空間の異なる部分に対して3つの異なる回帰モデルを適用するのが望ましい場合がある
- このようなモデルはmixture od experts (MoE)と呼ばれる(Jordan and Jacob, 1994)
- 基本アイデア：各サブモデルは入力空間のある部分において"expert"として考える
- $p(z_i=k|x_i, \theta)$ はgating functionを呼ばれる
- 入力値に応じてどのexpertsを用いるかを決める
- $p(y_i|x_i,\theta) = \sum_k p(z_i=k|x_i,\theta) p(y_i|x_i,z_i=k, \theta)$
- このモデルのfitについてはSec 11.4.3で議論
- expertとして任意のモデルが組み込めることは明らか