Semi-Supervised Learning (Chapelle et al., 2006)のChapter 1読んだ
Chapelle et al. (2006)を買ったので読んでみてる.Zhu and Goldberg (2009)の"Introduction to Semi-Supervised Learning"も買った.後者はかなり薄いかつ簡単そうなので,概要を掴むには良さそう.まだ特に半教師ありを何かに適用するつもりではないのだけれど,勉強として1章(pp.1-12)を簡単に読んだのでまとめる.
1. Supervised, Unsupervised, and Semi-Supervised Learning
Supervised and Unsupervised Learning
- 伝統的に教師あり学習と教師なし学習があるよ
- 教師なし学習はを個の点の集合として各点は共通の分布からi.i.d.にドローされると仮定.
- 行列を定義.
- 教師なし学習の目的はデータの興味深い構造を見つけること
- 教師あり学習の目的は訓練集合(のペア)が与えられたときにからへの写像を見つけること
- はのラベルと呼ばれる
- 一般にの分布からはi.i.d.に得られたと考える
- たとえばが実数であれば(スカラーorベクトル,もっと言えば連続量であれば)このタスクは回帰と呼ばれる
- この本のほとんどは分類に焦点を当てている(Chapter 23は回帰もあるよ)
- 教師ありには2つのアプローチがある
- 生成(generative)モデル的アプローチと識別(discriminative)モデル的アプローチ
- 生成モデルは教師なし学習によってクラスの条件付き確率密度をモデル化する.
- 予測確率はベイズの定理によって得られる
Semi-Supervised Learning(SSL)
- 半教師あり学習は教師なし学習と教師あり学習の間の子
- unlabeled dataを追加して,教師あり学習の精度を上げるよ
- データはラベルがあるとラベルのないの2つに分けられる
- これは半教師あり学習の設定として標準的で本書も基本はこの流れ
- SSLに関連する問題としてVapnikが数十年前に提案したtransductive learningもある
- これはlabeled training setとunlabeled test setが与えられて,テストデータに対してのみの予測をする問題
A Brief History of Semi-Supervised Learning
- unlabeled dataを使って予測精度を上げようという考えは古く,self trainingとして知られている
- かなり古いモノではScudder (1965), Fralick (1967), Agrawala (1970)
- transductive inferenceが提案されたのがVapnik and Chervonenkis (1974)やVapnik and Sterin (1977)あたり
- 他にもHartley and Rao (1968)はモデルの尤度を最大化するためにテストデータのラベルに組合せ最適化を適用
- SSLは1970s
- labeled dataとunlabeled dataによるモデルの尤度はEMアルゴリズムを使う(Dempster et al., 1977)
- 混合正規分布の代わりにlabeled dataとunlabeled dataによって推定された混合多項分布(Cooper and Freeman, 1970)
- Shahshahani and Landgrebe (1994)やMiller and Uyar (1997)
- probably approximtely correct (PAC) framework (Valiant, 1984)が2つの混合正規分布の半教師あり学習として導出(Ratsaby and Venkatesh, 1995)
- ここらへんで理論的な解析がなされる
2. When Can Semi-Supervised Learning Work?
- 自然な疑問として「半教師ありって意味あるの?」もっと言えば「教師あり学習と比べてunlabeled dataを加えるとどんだけ良くなるの?」
- この本の分厚さを見てくれ.原則的に答えは「Yes」だ
The Semi-Supervised Smoothness Assumption
- 教師あり学習のsmoothness assumptionは非常にpopularな仮定の一つ
- 2つの点が近い場合,は同様の出力になるべきという仮定
- 半教師ありにおいてはsmoothness assumptionの一般化が有用
- 高次元にある2つの点が近い場合,は同様の出力になるべきという仮定
- このsemi-supervised smoothness assumptionは回帰にも分類にも適用できる
The Cluster Assumption
The Manifold Assumption
Transduction
- Vapnikの原則だけ書いときますね
- ある問題を解こうとする際に,中間的なステップとしてより難しい問題を解くべきではない
3. Classes of Algorithms and Organization of This Book
- この本はいくつかのパートに分かれている
Generative Models
- Part 1(Ch 2-5)は生成モデル
- この設定ではの任意の追加的な情報が役立つ
- たとえばがGaussianだと仮定して,各クラスに一致するGaussianのパラメータを求めるのにEMアルゴリズムを使う
- 通常のEMとの違いは任意のlabeled dataに関連する隠れ変数があること
- 生成的アプローチの強みは問題やデータの構造に関する知識が自然にモデルに組み込めること
Low-Density Separation
- Part 2(Ch 6-10)はunlabeled dataからの決定境界を決めるためのlow-density separation assumptionの適用
- transductive SVMとか
- (読んでないのでちょっとまだイメージ湧いてない)
Graph-Based Methods
- Part 3(Ch 11-14)はGraph-Based Methods
- データをグラフのノードとして表し,リンクがpairwiseなノード間の距離を表す
- weight matrixを考えて,graph Laplacianをごちゃごちゃするようだ
- (面白そう)