MLaPP アドベントカレンダー8日目：Ch.8 Logistic regression

ロジスティック回帰の章まできました．このあたりは自分は結構よく知っていることもあり（読む時間もないし…），まとめ方は雑になってます．多くの本では，ロジスティック回帰の説明がなされている章で大抵ロジスティック回帰そのものよりも非線形最適化の話に注力されていることが多いのですが，この本も例外ではなく，ロジスティック回帰のパラメータ推定のための方法論に多くの内容が割かれています．この手のモデルのパラメータ推定をしようとしていてHessianがお亡くなりになった経験がある方は多いと思うのですが，その手の詳しい人は特に読む必要はない印象です．むしろ次の章の一般化線形モデルの章の方が多くのモデルの関係性が記述されているので，そちらの方が見通しがよくなると思います．

Introduction

- この章は識別モデルのアプローチ
- 生成モデルと比較して直接的に $p(y|x)$ をモデル化

Model specification

- $p(y|x, w) = Ber(y|sign(w^T x))$

Model fitting

MLE
- logistic regressionのnegative log-likelihood function
- $NLL(w) = - \sum_{i=1}^N \log [\mu_i^{I(y_i=1)} \cdot (1-\mu_i)^{I(y_i=0)}]$
- $= - \sum_{i=1}^N [y_i \log \mu_i + (1-y_i) \log (1-\mu_i)]$
- これはクロスエントロピー誤差関数と呼ばれる
- 線形回帰と異なり，最尤推定値をclosed formで書けないので最適化アルゴリズムで計算する必要あり
  - gradient
  - $g = \frac{d}{dw}f(w) = \sum_i (\mu_i - y_i) x_i = X^T (\mu-y)$
  - $H = \frac{d}{dw}g(w)^T = \sum_{i} (\nabla_w \mu_i) x_i^T = \sum_i \mu_i (1-\mu_i) x_i x_i^T = X^T S X$
  - $S = diag (\mu_i (1-\mu_i))$
Steepest descent
- 最急勾配法
- $\theta_{k+1} = \theta_k - \eta_k g_k$
- ステップサイズの決定方法として一つはTaylor展開
- $f(\theta + \eta d) \approx f(\theta) + \eta g^T d$
- $\phi(\eta) = f(\theta_k + \eta d_k)$ を最小化する $\eta$ を選ぶ
- これはline minimization or line search
- line searchのジグザグをなくすヒューリスティクス momentum term
- $\theta_{k+1} = \theta_k - \eta_k g_k + \mu_k (\theta_k - \theta_{k-1})$
- 最適化コミュニティではheavy ball methodと呼ぶ
- 別の方法としてconjugate gradient
- 非線形CGはあまりポピュラーではない
Newton's method
- second order optimization methodの筆頭
- $\theta_{k+1} = \theta_k - \eta_k H_k^{-1}g_k$
- $f_{guad}(\theta) = f_k + g_k^T (\theta-\theta_k) + \frac{1}{2}(\theta - \theta_k)^T H_k (\theta - \theta_k)$
- $= \theta^T A \theta + b-T \theta + c$
Quasi-Newton methods
- Hの計算コスト超高い
- 各ステップの勾配ベクトルから情報を集めてHessianを近似
- 最も一般的なのはBFGS法
- $B_{k+1} = B_k + \frac{y_k y_k^T}{y_k^T s_k} - \frac{(B_k s_k)(B_k s_k)^T}{s_k^T B_s s_k}$
- $s_k = \theta_k - \theta_{k-1}$
- $y_k = g_k - g_{k-1}$
- BFGSはHessianの"diagonal plus low-rank"近似
- メモリを食うのでlimited memory BFGS (L-BFGS)もあるよ
Multi-class logistic regression
- maximum entropy classifierやconditional logit modelとも（いわゆるロジット）
Bayesian logistic regression

Online learning and stochastic optimization

Online learning and regret minimization
Stochastic optimization and risk minimization
The LMS algorithm
The perceptron algorithm
A Bayesian view

Generative vs discriminative classifier

- GDAの事後分布はロジスティック回帰と同じ形をしている
- しかし，GDAによる仮定はロジスティック回帰よりも強い
- これらのモデル間の違いは訓練の仕方にある
- 識別モデルではたいていconditional log likelihood $\sum_{i=1}^N \log p(y_i|x_i, \theta)$ を最大化
- 生成モデルではjoint log likelihood $\sum_{i=1}^N \log p(y_i, x_i | \theta)$ を最大化
- これらは一般的に異なる結果になる
- GDAによる正規分布の仮定が正しいなら，ロジスティック回帰よりも少ないデータで良い性能を出すが，逆も然り (Ng and Jordan 2002)
Pros and cons of each approach
- - Easy to fit
    - 生成分類器の方が簡単．ロジスティック回帰は凸最適化問題を解く必要あり
  - Fit classes separately?
    - 生成分類器では各クラスの条件付き確率密度を独立に推定．そのためクラスを増やしても再計算が必要ない．識別モデルではすべてのパラメータが相互依存しているので，クラスを増やしたら再計算
  - Handle missing features easily?
    - 生成分類器ではSec 8.6.2の方法でシンプルに扱える．識別モデルでは良い方法がない
  - Can handle unlabeled training data?
    - これはsemi-supervised learning(半教師あり学習)で関心のあるトピック．生成モデルでは取り扱いやすいが識別モデルでは難しい
  - Symmetric in inputs and outputs?
    - 生成モデルを逆向きに走らせるとp(x|y)を計算できる．識別モデルは入力データを生成できない．
  - Can handle feature preprocessing?
    - 識別モデルの大きな利点は任意の形で入力を前処理できる．たとえばxの代わりに $\phi (x)$ を用いるなど．生成モデルではこういうことは難しい
  - Well-calibrated probabilities?
    - naive Bayesのような生成モデルは強い独立性を仮定しているため，しばしばキャリブレートが難しい．識別モデルはうまくやりやすい
  - 重要なのはあなたの”道具箱”に両方入れておくこと

Model	Classif/regr	Gen/Discr	Param/Non	Section
Discriminant analysis	Classif	Gen	Param	Sec 4.2.2, 4.2.4
Naive Bayes classifer	Classif	Gen	Param	Sec 3.5, 3.5.1.2
Tree-augmented Naive Bayes classifer	Classif	Gen	Param	Sec 10.2.1
Linear regression	Regr	Discrim	Param	Sec 1.4.5, 7.3, 7.6
Logistic regression	Classif	Discrim	Param	Sec 1.4.6, 8.3.4, 8.4.3, 21.8.1.1
Sparse linear/logistic regression	Both	Discrim	Param	Ch 13
Mixture of experts	Both	Discrim	Param	Sec 11.2.4
Multiayer perceptron (MLP)/ Neural network	Both	Discrim	Param	Ch 16
Conditional random field (CRF)	Classif	Discrim	Param	Sec 19.6
K nearest neighbor classifier	Classif	Gen	Non	Sec 14.2, 14.7.3
(Infinite) Mixture Discriminant analysis	Classif	Gen	Non	Sec 14.7.3
Classification and regression trees (CART)	Both	Discrim	Non	Sec 16.2
Boosted model	Both	Discrim	Non	Sec 16.4
Sparse kernelized lin/log reg (SKLR)	Both	Discrim	Non	Sec 14.3.2
Relevance vector machine (RVM)	Both	Discrim	Non	Sec 14.3.2
Support vector machine (SVM)	Both	Discrim	Non	Sec 14.5
Gaussian processes (GP)	Both	Discrim	Non	Ch 15
Smoothing splines	Regr	Discrim	Non	Sec 15.4.6

Dealing with missing data
Fisher's linear discriminant analysis (FLDA)

最後の各モデルの表は分類／回帰，生成／識別，パラメトリック／ノンパラなどの良い整理になっているかと思います．

Fire and Motion