MLaPP アドベントカレンダー7日目：Ch.7 Linear regression

なんとか7日目を迎えることができました．1週間というのは長いものです．しかし，これでまだ1/4の章．しかも簡単な部類の章ばかりなので，MLaPPこわい．ということで線形回帰の章です．

Model specification

- 線形回帰モデル
- $p(y|x, \theta) = N(y|w^T x, \sigma^2)$
- $x$ の代わりに非線形関数 $\phi(x)$ を用いてもモデル化できる
- $p(y|x, \theta) = N(y|w^T \phi(x), \sigma^2)$
- これは基底関数拡張(basis function expansion)と呼ばれる
- 簡単な例として多項式基底 $\phi(x) = \{1,x,x^2,\ldots,x^d \}$

Maximum likelihood estimation (least squares)

- 一般にMLEを計算することでパラメータを推定する
- $\hat \theta \equiv \arg \max_{\theta} \log p(D|\theta)$
- 訓練データはi.i.d.と仮定しているので対数尤度は
- $l(\theta) \equiv \log p(D|\theta) = \sum_{i=1}^N \log p(y_i|x_i, \theta)$
- 対数尤度最大化は負の対数尤度最小化であり，
- $l(\theta) = \sum_{i=1}^N \log \left[ \frac{1}{(2\pi \sigma^2)^{1/2}} \exp \left( - \frac{1}{2 \sigma^2} (y_i - w^T x_i)^2 \right)\right]$
- $= \frac{-1}{2 \sigma^2} RSS (w) - \frac{N}{2} \log (2 \pi \sigma^2)$
- ここで，RSSはresidual sum of squaresを意味し，
- $RSS(w) = \sum_{i=1}^N (y_i - w^T x_i)^2$
- これをNで割るとmean squared error (MSE)となるので，これを最小にするため最小二乗誤差を呼ばれる

Robust linear regression

- 以上のように， $\mu=0, \varepsilon \sim N(0,\sigma^2)$ のガウス分布を用いて回帰モデルの誤差を表現するのが一般的
- そのときMLEは二乗誤差
- しかし，データに外れ値があるとき，フィッティングが悪くなる
- その理由として二乗誤差は二次式のペナルティなので，回帰直線から離れた点は近い点よりも大きな影響を与えるからである
- 外れ値に対するロバスト性を達成する方法としてガウス分布の代わりに裾の広い分布（たとえばラプラス分布）を用いる
- ラプラス分布を用いると尤度は
- $p(y|x,w,b) = Lap(y|w^Tx, b) \propto \exp (- \frac{1}{b} |y-w^Tx|)$
- 簡単のためbを固定すると $(y-w^Tx)^2$ の代わりに $|y-w^Tx|$ を用いている
- NLLは $l(w) = \sum_i |r_i (w)|$
- これは非線形目的関数なので最適化は結構難しいため，split variable trickを用いる
- $r_i \equiv r_i^+ - r_i^-$
- $\min_{w, r^+, r^-} \sum_i (r_i^+ - r_i^-)$
- s.t.
- $r_i^+ \geq 0$
- $r_i^- \geq 0$
- $w^T x_i + r_i^+ + r_i^- = y_i$
- これはLPで解ける
- 別の方法としてHuber loss関数を最小化(Huber 1964)
- $L_H (r, \delta) = r^2/2\ \ \ \ \ if \ \ \ \ \ |r| \leq \delta$
- $= \delta |r| - \delta^2/2 \ \ \ \ \ if \ \ \ \ \ |r| \geq \delta$
- これは $\delta$ より誤差が小さいとき $l_2$ と等価であり，大きいときは $l_1$ と等価
- このロス関数のメリットはどこでも微分可能

Ridge regression

- 最尤推定の課題はoverfitすること
- ガウス事前分布によるMAP推定を用いることでこの問題を改善する
Basic idea
- $p(w) = \prod_j N(w_j|0,\tau^2)$
- $1/\tau^2$ は事前分布の強さ
- MAP推定問題は
- $\arg \max_w \sum_{i=1}^N \log N (y_i|w_0 + w^T x_i, \sigma^2) + \sum_{j=1}^D \log N (w_j|0,\tau^2)$
- $J(w) = \frac{1}{N} \sum_{i=1}^N (y_i - (w_0 + w^T x_i))^2 + \lambda ||w||_2^2$
- $\lambda \equiv \frac{\sigma^2}{\tau^2}, \ \ \ || w ||_2^2 = \sum_j w_j^2$
- 第一項はMLE，第二項は二乗ノルムのペナルティ項
- $\hat w_{ridge} = (\lambda I_D + X^T X)^{-1} X^T y$
- これがリッジ回帰 or penalized least squaresと呼ばれる
Numerically stable computation
- $(\lambda I_D + X^T X)$ のリッジ回帰は $(X^T X)$ の回帰より統計的性質が良いだけでなく，数値計算上も良い性質がある
Connection with PCA
- リッジ回帰とPCAの興味深い関係
- PCAの章を読んでから戻ってこよう
Regularization effects of big data