MLaPP アドベントカレンダー3日目:Ch.3 Generative models for discrete data

というわけでMLaPPアドベントカレンダー3日目.三日坊主の域まで来たので,一つ目の関門は越えた感じです.ここまでで一応100ページ弱.3章の内容はまだまだ導入という感じの章ですね.生成モデルの考え方,ベイズの考え方などが具体例に沿って説明されるのでわかりやすい章だと思います.また,1章から3章の内容はとても読みやすい導入になっていると思うので,これから機械学習を勉強しようという人にはとてもオススメできるパートです.

Bayesian concept learning

  • number game (Tenenbaum, 1999)が面白い
    • あるコンセプトに従って1から100までの間の数が伝えられ,どういうコンセプトかを当てる
    • 最初に"16"と言われると,"10台の数字"とか"4の倍数"とか"偶数"などのコンセプトに沿った数字の事後確率が上がる
    • 次に"8"と言われると,4の倍数"や"偶数","8の倍数"のコンセプトの事後確率がもっと上がる(逆に"10台の数字"は下がる)
    • みたいな感じでベイズ的な考え方がうまく説明されている

Beta-binomial model

    • コイントスをしたときに,コインの表が出る確率を推論する問題
    • また,この問題はBayesのoriginal paperでも分析されている
  • Likelihood
    • はパラメータ
    • は表が出た回数, は裏が出た回数
    • これらの2つの数はデータの十分統計量(sufficient statistics)と呼ばれる
  • Prior
    • 簡単のため,事前分布は尤度と同じ形を考える.たとえば以下
    • は事前パラメータ
    • 事前分布と事後分布が同じ形になるような事前分布を共役事前分布(conjugate prior)と呼ぶ
    • 共役事前分布は計算が容易い,解釈がしやすいなどの理由で広く使われている
  • Posterior
    • 事後分布は尤度と事前分布の積に比例するので次の形でかける
    • 尤度がベルヌーイ分布,事前分布に二項分布を仮定すると,事前分布のハイパーパラメータはpseudo countsとして解釈できる
    • 事前分布の強さはeffective sample sizeとして知られ,pseudo countsの合計
    • (これはデータサイズとのアナロジー
  • Overfitting and the black swan paradox
    • このblack swan paradoxは面白い
    • 最尤推定では3回コイントスをして3回表が出ると,このコインの裏が出る確率は0となる
    • でも,これって感覚的におかしいと思う
    • このような問題はzero count problemと呼ばれたり,sparse data problemと呼ばれたりする
    • カール・ポパーはこのような問題を哲学上はblack swan paradoxと呼んでいる
    • この問題のシンプルな解決策の一つがベイズ統計における事前分布の仮定
    • add-one smoothingとして知られている0をすべて1にする方法はLaplace's ruleによる事後平均である

The Dirichlet-multinomial model

    • 二項分布モデルの多項分布への拡張版
    • その場合は事前分布はディリクレ分布が共役事前分布
      • よく知られた例としてBoWを用いたlanguage model

Naive Bayes classifiers

    • 離散値を取る特徴量ベクトルにおける生成モデルアプローチによる分類器
    • 各クラスの条件付き分布が必要
    • 1番簡単な方法は各特徴量が各クラスラベルと条件付き独立であると仮定すること
    • これにより,各クラスの条件付き確率密度は各次元の密度の積で表現される
    • このモデルはnaive Bayes classifier (NBC)と呼ばれる
  • ナイーブと呼ばれる理由
    • 本当はクラスラベルの条件付きであってもfeatureは独立ではない
    • しかし,この仮定が正しくなくても結構この分類器はうまくいく(Domingo and Pazzani, 1997)
    • 特徴量が実数の時は正規分布の積で
    • 特徴量が2値変数のときはベルヌーイ分布の積でかける.これはmultivariate Bernoulli naive Bayesとよばれる
  • Model fitting
  • the log-sum-exp trick
    • ナイーブベイズなどの計算をしてるとき,exp()がいっぱいあるので,計算がアンダーフローする
    • それはxが高次元の時,がたいてい値が小さくなってしまうため
    • そこで良く使うのがlog-sum exp trickである
  • Feature selection using mutual information
    • ナイーブベイズはオーバーフィッティングしがちなので,特徴量選択を相互情報量をもちいて行う
    • 特徴量選択の1番簡単な方法は各特徴量を別々に比較し,上位K個を用いる方法である
    • これはranking, filtering, screeningと呼ばれる
  • Classifying documents using bag of words
    • ナイーブベイズは文書分類に用いられる
    • たとえばスパムフィルタ
    • ベルヌーイ積モデル (Bernoulli product model or binary independence model)
    • McCallum and Nigam (1998)

コメント

しかし,これがあと25章,しかも内容がどんどん難しくなっていく上に,自分の日中業務も忙しくなってきているので,不安感しかないですね...夜はMLaPP読んで心を静めるしかない!