MLaPP アドベントカレンダー1日目：Ch.1 Introduction

12月ですね．そういえば昨年ベイズ統計分析ハンドブックに関するエントリーを書いたところ，ホッテントリに入って大量のアクセスを頂きましたが，誰一人としてアフィリエイトで買う人間はおらず，やはり薦める本を失敗した！と後悔し続けた2013年です．

皆様から注目を頂いたベイズ統計ハンドブックですが，やはり1047ページ，28,000円という物理的にもお財布的にも鈍器のように優しくない本を購入する人間はいないということがわかったので，今年はもっとみんなが興味があり，かつ手に取りやすい本をご紹介したいと思います．そこで，MLaPPです．MLaPPとはMachine Learning: a Probabilistic Perspective（著者ページ）というタイトルで，全28章にわたって，Machine Learningを概説している本であり，PRMLと同じくらい注目されても良い本ではないかと個人的には思っています．

あの（自分のブログ経由ではさっぱり売れなかった）ベイズ統計ハンドブックと異なり，1067ページ，8335円(現時点amazon)と，ページ数はより多く，値段は大変お求めやすくなっています！！！kindle版ならなんと5286円(現時点amazon)です！！！1ページあたりの値段を考えると，ベイズ統計ハンドブックより5倍ほどお得です．

．．．．さて，与太話はこのあたりにしておいて，実物を見たことのある人はご存じかと思いますが，MLを俯瞰的に眺められる本の中では現時点で1位といったも過言ではないと思います．しかし，如何せんこの分厚さにより，なかなか読み進めることができません．私はこの本を5月くらいに買いましたが，完全に積み本です．1, 2, 3章くらい読んで，あとはパラパラめくって，へぇ〜いろいろなトピック網羅しているなぁ〜と思って本棚行きです．読破した人はいるのでしょうか…．

ということで，年の瀬のこのクソ忙しい時期に睡眠時間を削ってMLaPPアドベントカレンダーという無謀なチャレンジに挑戦したいと思います．基本的には1章ごとに読んで簡単なメモを作成するということを目標にしたいと思います．だんだん厳しくなってくると思うので，わかった部分だけのメモや重要だと思った点だけのメモになると思います．

28章あるのでアドベントカレンダーの日数と違うじゃないか，どうするつもりだ！というご質問については，どうせ続かないのでそんな先のことを考えても仕方ないというコメントを予めしておきたいと思います．このチャレンジのためにどこでも持ち歩けるようにkindle版も買いました．Murphyに貢いでばかりです．なんとか読破して取り戻したい！！！

Machine learningとは何か？

データ内のパターンを自動的に発見する方法論の集合として定義
将来データの予測，不確実性下における意思決定に役立つパターン発見
確率論のツールを利用
ゴールは確率モデルや推論を通してフィールドに対する統一的な視点を与えること

Machine learningの分類

Supervised learning (predictive learning)
- 入力データxからラベルyへの写像を学習することがゴール
- $y_i$ がカテゴリカル変数であれば，問題は分類・パターン認識
- $y_i$ が実数であれば，問題は回帰
Unsupervised learning (descriptive learning)
- 入力データのみ与えられる
- "興味深いパターン"を発見することがゴール
- これは知識発見(knowledge discovery)と呼ばれる
- このモデルは教師あり学習と異なりerror metricが明らかではない
Reinforcement learning
- 強化学習はマルチエージェントやロボットの分野でやられているイメージ

Supervised learning

分類
- 入力xから出力yへの写像を学習することがゴール
- この問題を定式化する一つの方法は関数近似
- 訓練集合で予測をすることは簡単なので，新たなデータに対する予測をするのが主な目的
- 実世界での適用
  - 文書分類
  - スパムフィルタリング
  - イメージ分類，手書き認識
  - 顔検知と顔認識
回帰
- 実世界での適用
  - 明日の株価の予測
  - Youtubeのviewer数の予測
  - ロボットアームの三次元位置の予測など

Unsupervised learning

ゴールは"興味深い構造"の発見，knowledge discovery
教師あり学習と異なり，各入力に対する望ましい出力が何なのかわからない
- 一つには $p(x_i|\theta)$ のモデルをつくるために密度推定としてタスクを定式化できる
教師あり学習との違い
- $p(y_i|x_i, \theta)$ の代わりに $p(x_i|\theta)$ をモデル化
- は特徴量ベクトルであり，多変量確率モデルをつくる必要
  - 多くの教師あり学習と同じように，問題を十分に単純化した確率モデルを使うことができる
Unsupervised learningに対するHinton先生のありがたいお言葉

我々がなにかをみて学んでいるとき，誰もその正確な答えは教えてくれない．わたしたちはただ見ているだけだ．時折，お母さんは「あれは犬よ」と教えてくれる．でも，それはとっても小さな情報だ．もし，そこから1秒間に2, 3ビットの情報でさえ得たならばラッキーだろう．しかし，脳の視覚システムは10^14のニューラルコネクションをもっている．そして，あなたは10^9秒程度しか生きないのだ．1秒間に1ビット学ぶことは役に立たない．1秒間に10^5 ビット必要なのだ．あなたは入力そのものから，多くの情報を得ることができている．, Hinton (1996) (意訳)

Discovering clusters
- 1番よくある例はデータをグループにクラスタリングすること
- 一つ目のゴールはクラスター数の分布p(K|D)を推定すること
- 二つ目のゴールは各ポイントが属するクラスターを推定すること

Discovering latent factors
- 高次元データを取り扱うとき，データの"essence"を捉えた低次元部分空間にデータを写像する次元削減が有用
- 次元削減に良く使われるアプローチはprincipal components analysis (PCA)
  - biologyではマイクロアレイデータにPCA
  - NLPではlatent semantic analysis for document retrieval
  - 信号処理ではICA

Discovering graph structure
- あるものと最も関連がある他のデータを発見したい
- スパースグラフ学習には2つの主要なアプリケーションがある
  - 新しい知識の発見
  - 結合確率密度をより良くする
  - 図1.11

Matrix Completion
- 実際の値がわからないような欠損値データを得ることもある
- corresponding design matrixの中には穴があいている
- これらの欠損値はしばしばNaNによって表現される
- データ補完のゴールは欠損した入力値に対してもっともらしい値を推測すること
  - Image inpainting
  - Collaborative filtering
  - Market basket analysis

Some basic concepts in machine learning

パラメトリック vs ノンパラメトリック
- パラメトリックモデル
  - モデルが固定された数のパラメータをもつ
  - 速い
  - データ分布について強い仮定をもつ
- ノンパラメトリックモデル
  - パラメータの数が訓練データ量に合わせて変化する
  - より柔軟
  - 大きなデータセットについて計算的に扱いづらい

A simple non-parametric classifier: K-nearest neighbors (KNN)
- 訓練集合の中のテスト入力xに最も近いK個の点を単に見て，この集合内の各クラスの数を数える
- 式(1.2)
- この方法はmemory-based learning or instance-based learningの例
- 一般的な距離計量はユークリッド距離，他の計量も用いることができる

No free lunch theorem
- どんなときでも最高なものはない

他の章へのリンク（随時追加）

とりあえず1章は大丈夫だと思いますが，何章までいけるのでしょうか…．自分予測では7章くらいで死にそうです．ただ関心があるのが中盤から後半にかけてなんだよなぁ…．風邪を引かないようにがんばりたいです．