MLaPP アドベントカレンダー1日目:Ch.1 Introduction
12月ですね.そういえば昨年ベイズ統計分析ハンドブックに関するエントリーを書いたところ,ホッテントリに入って大量のアクセスを頂きましたが,誰一人としてアフィリエイトで買う人間はおらず,やはり薦める本を失敗した!と後悔し続けた2013年です.
皆様から注目を頂いたベイズ統計ハンドブックですが,やはり1047ページ,28,000円という物理的にもお財布的にも鈍器のように優しくない本を購入する人間はいないということがわかったので,今年はもっとみんなが興味があり,かつ手に取りやすい本をご紹介したいと思います.そこで,MLaPPです.MLaPPとはMachine Learning: a Probabilistic Perspective(著者ページ)というタイトルで,全28章にわたって,Machine Learningを概説している本であり,PRMLと同じくらい注目されても良い本ではないかと個人的には思っています.
あの(自分のブログ経由ではさっぱり売れなかった)ベイズ統計ハンドブックと異なり,1067ページ,8335円(現時点amazon)と,ページ数はより多く,値段は大変お求めやすくなっています!!!kindle版ならなんと5286円(現時点amazon)です!!!1ページあたりの値段を考えると,ベイズ統計ハンドブックより5倍ほどお得です.
....さて,与太話はこのあたりにしておいて,実物を見たことのある人はご存じかと思いますが,MLを俯瞰的に眺められる本の中では現時点で1位といったも過言ではないと思います.しかし,如何せんこの分厚さにより,なかなか読み進めることができません.私はこの本を5月くらいに買いましたが,完全に積み本です.1, 2, 3章くらい読んで,あとはパラパラめくって,へぇ〜いろいろなトピック網羅しているなぁ〜と思って本棚行きです.読破した人はいるのでしょうか….
ということで,年の瀬のこのクソ忙しい時期に睡眠時間を削ってMLaPPアドベントカレンダーという無謀なチャレンジに挑戦したいと思います.基本的には1章ごとに読んで簡単なメモを作成するということを目標にしたいと思います.だんだん厳しくなってくると思うので,わかった部分だけのメモや重要だと思った点だけのメモになると思います.
28章あるのでアドベントカレンダーの日数と違うじゃないか,どうするつもりだ!というご質問については,どうせ続かないのでそんな先のことを考えても仕方ないというコメントを予めしておきたいと思います.このチャレンジのためにどこでも持ち歩けるようにkindle版も買いました.Murphyに貢いでばかりです.なんとか読破して取り戻したい!!!
Machine learningとは何か?
- データ内のパターンを自動的に発見する方法論の集合として定義
- 将来データの予測,不確実性下における意思決定に役立つパターン発見
- 確率論のツールを利用
- ゴールは確率モデルや推論を通してフィールドに対する統一的な視点を与えること
Machine learningの分類
- Supervised learning (predictive learning)
- Unsupervised learning (descriptive learning)
- 入力データのみ与えられる
- "興味深いパターン"を発見することがゴール
- これは知識発見(knowledge discovery)と呼ばれる
- このモデルは教師あり学習と異なりerror metricが明らかではない
- Reinforcement learning
- 強化学習はマルチエージェントやロボットの分野でやられているイメージ
Supervised learning
Unsupervised learning
- ゴールは"興味深い構造"の発見,knowledge discovery
- 教師あり学習と異なり,各入力に対する望ましい出力が何なのかわからない
- 一つにはのモデルをつくるために密度推定としてタスクを定式化できる
- 教師あり学習との違い
- Unsupervised learningに対するHinton先生のありがたいお言葉
我々がなにかをみて学んでいるとき,誰もその正確な答えは教えてくれない.わたしたちはただ見ているだけだ.時折,お母さんは「あれは犬よ」と教えてくれる.でも,それはとっても小さな情報だ.もし,そこから1秒間に2, 3ビットの情報でさえ得たならばラッキーだろう.しかし,脳の視覚システムは10^14のニューラルコネクションをもっている.そして,あなたは10^9秒程度しか生きないのだ.1秒間に1ビット学ぶことは役に立たない.1秒間に10^5 ビット必要なのだ.あなたは入力そのものから,多くの情報を得ることができている., Hinton (1996) (意訳)
- Discovering clusters
- Discovering latent factors
- 高次元データを取り扱うとき,データの"essence"を捉えた低次元部分空間にデータを写像する次元削減が有用
- 次元削減に良く使われるアプローチはprincipal components analysis (PCA)
- biologyではマイクロアレイデータにPCA
- NLPではlatent semantic analysis for document retrieval
- 信号処理ではICA
- Discovering graph structure
- あるものと最も関連がある他のデータを発見したい
- スパースグラフ学習には2つの主要なアプリケーションがある
- 新しい知識の発見
- 結合確率密度をより良くする
- 図1.11
- Matrix Completion
- 実際の値がわからないような欠損値データを得ることもある
- corresponding design matrixの中には穴があいている
- これらの欠損値はしばしばNaNによって表現される
- データ補完のゴールは欠損した入力値に対してもっともらしい値を推測すること
- Image inpainting
- Collaborative filtering
- Market basket analysis
Some basic concepts in machine learning
- A simple non-parametric classifier: K-nearest neighbors (KNN)
- 訓練集合の中のテスト入力xに最も近いK個の点を単に見て,この集合内の各クラスの数を数える
- 式(1.2)
- この方法はmemory-based learning or instance-based learningの例
- 一般的な距離計量はユークリッド距離,他の計量も用いることができる
- No free lunch theorem
- どんなときでも最高なものはない
他の章へのリンク(随時追加)
http://d.hatena.ne.jp/harapon1012/20131201/1385823813
http://d.hatena.ne.jp/harapon1012/20131202/1385911247
http://d.hatena.ne.jp/harapon1012/20131203/1386030753
http://d.hatena.ne.jp/harapon1012/20131204/1386087166
http://d.hatena.ne.jp/harapon1012/20131205/1386194335
http://d.hatena.ne.jp/harapon1012/20131206/1386302426
http://d.hatena.ne.jp/harapon1012/20131207/1386378922
http://d.hatena.ne.jp/harapon1012/20131208/1386480363
http://d.hatena.ne.jp/harapon1012/20131209/1386551009
http://d.hatena.ne.jp/harapon1012/20131210/1386612799
コメント
とりあえず1章は大丈夫だと思いますが,何章までいけるのでしょうか….自分予測では7章くらいで死にそうです.ただ関心があるのが中盤から後半にかけてなんだよなぁ….風邪を引かないようにがんばりたいです.