Semi-Supervised Learning (Chapelle et al., 2006)のChapter 2読んだ
A Taxonomy for Semi-Supervised Learning Methods
Seeger, M.
Ch 2(pp.15-31)もどちらかというとoverviewっぽい.半教師あり学習の分類について書かれている.相変わらず簡単なまとめメモ+適当な意訳あり.あとはてダの数式が綺麗ではないので,少しがんばってみた.はてなブログの方が数式綺麗らしいので乗り換えようかなぁ….
1. The Semi-Supervised Learning Problem
- 半教師あり学習には2つの基本的手法がある
- unlabeled dataを無視した教師あり分類問題
2. Paradigms for Semi-Supervised learning
- 半教師あり学習は教師あり学習のテクニックなので,当然生成モデル的アプローチと識別モデル的アプローチに分類できる
- この節では統計学や機械学習でよく用いられるグラフィカルノーテーションを用いる.これはグラフィカルモデル(またはindependence diagrams)とも呼ばれる.
- グラフィカルモデルは変数の確率分布からサンプリングされるメカニズムをシンプルに表現できる
- ノードは確率変数を表す
- ノードの親は有向リンクをもつノード
- ノードの集合をグルーピングする箱をplates(良い訳が浮かばないのでプレートとする)を利用する
- これは任意のプレートの親ノードからi.i.d.に繰り返しサンプリングされたグループであることを表す
The Generative Paradigm
- 生成モデルアプローチでは周辺確率は次のように書ける.
- もしlabeled dataとunlabeled dataが両方利用可能であれば,との同時対数尤度は次のように書ける.
The Diagnostic Paradigm
- 識別モデル的アプローチではを用いて条件付き確率分布をモデル化
- データに対する完全なサンプリングモデルのためにによってもモデル化する必要あり
- でも,の更新や未知の点に対するの予測にのみ関心がある場合は必要ない
- このモデルの下ではは事前独立,つまりである
- 尤度は以下のように書ける.
- さらにとする.これはunlabeled dataに対する知識もに対する知識もlabeled sampleの事後信念を変えないことを意味する
- そのため,識別モデルの標準的なデータ生成モデルにおいては,unlabeled dataはベイズ推論のために使うことができず,inputの確率分布をモデル化する必要はない
- 識別モデルの中でunlabeled dataをうまく利用するためには上記のデータ生成モデルを後の節で議論するように改善する必要がある
Regularization Depending on the Input Distribution
- 一般に限られたlabeld dataを使うと過学習するので正則化する
- 識別モデルアプローチだと単純にやるとunlabeled dataはうまく利用できない.なんでかというと,とが事前独立を仮定してたからで,これも入力分布の独立性によるある種の正則化である
- との事前独立を緩和してみよう.つまり,
- この場合,についての情報がに影響を与えるので,unlabeled dataはの事後信念を変化させる
- 識別モデル的アプローチでunlabeled dataを有効活用するには条件付き確率を表す潜在関数と入力確率分布の間に従属関係があることを仮定するしかない
- この関係の下では,は
- に変わる.こうすることでエントロピーが小さくなる
- しかし,謎がある.ここまでしたら,これって識別モデルなのか?
- 識別モデルはを推定する必要がないから節約的なモデルであったはずなのに.なんかこれって生成モデルっぽくない?
- なんかこのへんの違いが曖昧なので次節でちゃんと説明する.
The Borderline between the Paradigms
- 教師あり学習と教師なし学習の境界はかなりはっきりしているのに対し,生成モデルと識別モデルの間の違いはかなり曖昧だ.半教師あり学習の文脈では特に曖昧
- いま,やりたいことはを推定すること
- 生成モデルアプローチでは同時確率をモデル化し,真の同時確率分布の性質を捉えることによってこのモデルをデータにフィットさせ,目的を達成する
- の推定値は常に同時確率の周辺化によって得られる
- 識別モデルアプローチでは条件付き確率のみをモデル化したい
- は必要ない.んだけど,半教師あり学習においてはから何か情報を得るためにをモデル化しなきゃいけない
- では,すべての半教師あり学習は生成モデル?
- 我々はそうではないと考えている.が行う役割が違う
3.Examples
以下は途中まで書いていたのが消えて心が折れたので簡潔に.
Generative Techniques
Diagnostic Techniques
- Tong and Koller (2000)
- restricted Bayes optimal classification (RBOC)
- Anderson (1979)
- unlabeled dataを用いたロジスティック回帰
Input-Dependent Regularization
識別モデル的アプローチにunlabeled dataを使うときはパラメータの依存関係に正則化をする
- The Cluster Assumption
- ラベル伝搬法
- The Fisher Kernel
- Co-Training