MLaPP アドベントカレンダー9日目：Ch.9 Generalized linear models and the exponential family

本日は指数型分布族に関する章で，指数型分布族とはなんぞその3のような感じです(その1, その2)．任意の指数型分布族のメンバーは生成分類器をつくるためのクラス条件付き確率密度として簡単に用いることができます．また，反応変数yが指数型分布族分布となるような識別モデルとして，一般化線形モデル(Generalized linear models; GLM)と呼ばれるモデルクラスを考えることができます．

The exponential family

- 指数型分布族が重要な理由
  - ある正則性条件の下で指数型分布族は有限サイズの十分統計量をもつ唯一の分布族．これはデータを情報損失なくある固定されたサイズに要約できることを意味し，online learningで特に重要
  - 指数型分布族は共役事前分布をもつ唯一の分布族
  - 指数型分布族はuser-chosen constraintに従う仮定が最小となる分布族(see Sec 9.2.6)
  - 指数型分布族はGLMのコア(see Sec 9.3)
  - 指数型分布族は変分推論のコア(see Sec 21.2)

Definition
- $p(x|\theta) = \frac{1}{Z(\theta)} h(x) \exp [\theta^T \phi (x) ]$
- $= h(x) \cdot \exp [\theta^T \phi(x) - A(\theta)]$
- $Z(\theta) = \int_{X^m} h(x) \exp[\theta^T \phi(x)] dx$
- $A(\theta) = \log Z(\theta)$
- $\theta$ : natural parameter or canonical parameter
- $\phi (x) \in R^d$ : sufficient statistics
- $Z(\theta)$ : partition function
- $A(\theta)$ : log partition function or cumulant function
- $h(x)$ : scaling constant (たいてい1)
- もし $\phi(x) = x$ ならnatural exponential family
- 指数型分布族は一般的に次のように書ける
- $p(x|\theta) = h(x) \cdot \exp [\eta(\theta)^T \phi(x) - A(\eta\theta))]$
- $\eta$ はパラメータ $\theta$ をcanonical parameter $\eta = \eta(\theta)$ へ写像する関数
- もし $dim (\theta) < dim (\eta(\theta))$ ならcurved exponential familyと呼ばれ，パラメータ数よりも多い十分統計量を持つ
- $\eta(\theta) = \theta$ ならモデルはcanonical formと呼ばれる

Log partition function
- 指数型分布族の重要な性質はlog partition functionの微分が十分統計量のキュムラントを生成するのに使えること
- そのため， $A(\theta)$ はキュムラント関数と呼ばれることもある

MLE for the exponential family
- 指数型分布族の尤度は
- $p(D|\theta) = \left[ \prod_{i=1}^N h(x_i) \right] g(\theta)^N \exp(\eta(\theta)^T \left[ \sum_{i=1}^N \phi(x_i)\right])$
- $\phi(D) = \left[ \sum_{i=1}^N \phi_1 (x_i), \ldots, \sum_{i=1}^N \phi_K (x_i) \right]$
- Pitman-Koopman-Darmois theorem
- ある正則性条件の下で指数型分布族は有限の十分統計量をもつ唯一の分布族である
- canonical exponential family modelの最尤推定値の計算法
- N個のiid data point $D = \{ x_1, \ldots, x_N \}$
- 対数尤度は
- $\log p(D|\theta) = \theta^T \phi(D) - N A(\theta)$
- ここで $-A(\theta)$ は $\theta$ に対して凸なので $\theta^T \phi(D)$ は $\theta$ について線形であり，対数尤度は凸
- これを最大化するためにlog partition functionの微分は十分統計量ベクトルの期待値であることを用いて
- $\nabla_{\theta} \log p(D|\theta) = \phi(D) - N E[\phi(X)]$
- 十分統計量の経験平均はモデルの理論的期待十分統計量と一致しなければならないので
- $\hat \theta$ は $E[\phi(X)] = \frac{1}{N} \sum_{i=1}^N \phi(x_i)$ を満たす
- これはmoment matchingと呼ばれる

Bayes for the exponential family

Maximum entropy derivation of the exponential family

Generalized linear models (GLMs)

- 線形回帰やロジスティック回帰はGLMの一つの例(McCullagh and Nelder 1989)
- これらは出力密度がexponential familyであり，その平均パラメータがロジスティック関数のような非線形関数を通して，入力の線形結合で表されるモデル

Basics
- GLM理解のために次のモデルを考える
- $p(y_i|\theta, \sigma^2) = \exp \left[ \frac{y_i \theta - A(\theta)}{\sigma^2} + c (y_i, \sigma^2) \right]$
- $\sigma^2$ : dispersion parameter
- $\theta$ : natural parameter
- $A$ : partition function
- $c$ : normalized constant
- たとえばロジスティック回帰では $\theta$ はlog-odd ratio
- $\theta = \log (\frac{\mu}{1-\mu}),\ \mu = E[y] = p(y=1)$
- mean parameterからnatural parameterに変換するために関数 $\psi$ を用いる．つまり， $\theta = \psi(\mu)$
- この関数は指数型分布族の分布の形状から1つに決まる
- これは逆写像であり， $\mu = \Psi^{-1}(\theta)$
- Sec 9.2.3でやったように，平均はpartition functionの微分で与えられるので
- $\mu = \Psi^{-1}(\theta) = A$
- まず，inputの線形関数を定義する
- $\eta_i = w^T x_i$
- 分布の平均はこの線形結合の可逆単調関数
- この関数はmean functionとして知られており
- $\mu_i = g^{-1} (\eta_i) = g^{-1} (w^T x_i)$
- mean functionの逆関数g()はlink functionと呼ばれる
- たとえばロジスティック回帰では $\mu_i = g^{-1}(\eta_i) = sigm(\eta_i)$
- link functionの特にシンプルなものは $g = \psi$ をもちいるものでこれはcanonical link functionと呼ばれる
- $\theta_i = \eta_i = w^T x_i$
- モデルは
- $p(y_i|x_i, w, \sigma^2) = \exp \left[ \frac{y_i w^T x_i - A(w^T x_i)}{\sigma^2} + c(y_i, \sigma^2) \right]$
- Sec 9.2.3の結果を用いると，response variabkeの平均，分散は
- $E[y_i|x_i, w, \sigma^2] = \mu_i = A$
- - 線形回帰
    - $\log p(y_i|x_i, w, \sigma^2) = \frac{y_i \mu_i - \frac{\mu_i^2}{2}}{\sigma^2} - \frac{1}{2} \left( \frac{y_i^2}{\sigma^2} + \log (2\pi \sigma^2) \right)$
    - $A(\theta) = \frac{\theta^2}{2}, E[y_i] = \mu_i, var[y_i] = \sigma^2$
  - binomial regression
    - $\log p(y_i|x_i, w) = y_i \log \frac{\pi_i}{1-\pi_i} + N_i \log (1- \pi_i) + \log (N_i y_i)$
    - $A(\theta) = N_i \log (1+e^{\theta}), E[y_i] = N_i \pi_i = \mu_i, var[y_i] = N_i \pi_i (1-\pi_i)$
  - poisson regression
    - $\log p(y_i|x_i, w) = y_i \log \mu_i - \mu_i - \log (y_i !)$
    - $A(\theta) = e^{\theta}, E[y_i] = var[y_i] = \mu_i$
- リンク関数

Name	Formula
Logistic	$g^{-1}(\eta) = sigm(\eta) = \frac{e^\eta}{1+e^\eta}$
Probit	$g^{-1}(\eta) = \Psi(\eta)$
Log-log	$g^{-1}(\eta) = \exp(-\exp(-\eta))$
Complementary log-log	$g^{-1}(\eta) =1- \exp(-\exp(\eta))$

ML and MAP estimation
- GLMの良い性質の一つとしてロジスティック回帰と同じ方法で推定が行える
- 特にlog likelihoodが次の形をしているとき
- $l(w) = \log p(D|w) = \frac{1}{\sigma^2} \sum_{i=1}^N l_i$
- $l_i \equiv \theta_i y_i - A(\theta_i)$
- チェインルールを用いて勾配ベクトルを計算可能
- $\frac{d l_i}{d w_i} = (y_i - \mu_i) \frac{d \theta_i}{d \mu_i} \frac{d \mu_i}{d \eta_i} x_{ij}$
- もしcanonical linkを用いると
- $\nabla_w l(w) = \frac{1}{\sigma^2} \left[ \sum_{i=1}^N (y_i - \mu_i)x_i \right]$
- non-canonical linkであっても実際のHessianの代わりにHessianの期待値(フィッシャー情報行列)を用いることができる
- これをFisher scoring methodという

Probit regression

- ロジスティック回帰の代わりに $g^{-1}(\eta) = \Phi(\eta)$ となる標準正規分布を用いる
- ロジスティック回帰と似ているが柔軟なモデルがつくれるなど，いくつかの利点がある
ML/MAP estimation using gradient-based optimization
Latent variable interpretation
- Random utility model (McFadden 1974, Train 2009)が引用されており，研究分野の地続き感が感じられ感慨深い
Ordinal probit regression
Multinomial probit models

Multi-task learning

- あるグループにはデータが大量にあるが，別のグループではそうではないときに，
- それぞれモデルをつくってfitさせるのは難しいのでモデルパラメータをグループ間で共通にしてしまう考え方
- ML分野では
  - multi-task learning (Caruana 1998)
  - transfer learnint (Raina et al. 2005)
  - learning to learn (Thrun and Pratt 1997)
- 統計学では
  - hierarchical Bayesian models (Bakker and Heskes 2003)~
- などと呼ばれる
Hierarchical Bayes for multi-task learning
Application to personalized email spam filtering
Application to domain adaptation

Generalized linear mixed models

Example: semi-parametric GLMMs for modical data
Comuputational issues

Learning to rank

The pointwise approach
The pairwise approach
The listwise approach
Loss functions for ranking

そろそろ詰みそう．今週はスケジュール的にきついー．

Fire and Motion