MLaPP アドベントカレンダー5日目：Ch.5 Bayesian statistics

5日目になってベイズ統計の章に入ってきました．ベイズの定理を用いたベイズモデリングや，そこまで詳しく触れられませんが古典的ベイズ，階層ベイズ，経験ベイズの違いがわかるといいと思います．また，次の章では頻度論的な話になっているので対比してみると理解が深まるように思います．

Summarizing posterior distributions

- 事後分布 $p(\theta|D)$ は未知量 $\theta$ に関して知っていること全てを要約
MAP estimation
- 未知量に対する点推定は事後分布の平均や中央値などで計算
- このアプローチは計算しやすいが，MAP推定には様々な欠点があることを把握しておくのは重要
- これは後半に続くより徹底的なベイズアプローチのモチベーションになっている
  - No measure of uncertainty
    - MAP推定を含む任意の点推定は不確実性に対する指標がない
  - Plugging in the MAP estimate can result in overfitting
    - MLにおいてはパラメータ解釈よりも予測精度を重視
    - 不確実性をモデル化していないと予測分布はoverfitしている
  - The mode is an untypical point
  - MAP estimation is not invariant to reparameterization
    - MAP推定に関するより本質的な問題
    - 確率分布を分析者がどのようにパラメタライズしたかに依存する
Credible intervals
- 事後分布の幅を与えるのがCredible interval(信用区間)
- $C_{\alpha} (D) = (l,u) : p(l \leq \theta \leq u | D) = 1- \alpha$
- 事後分布がよく知られた関数形ならばその関数を用いて信用区間を計算
- 事後分布がよくわからないならば，モンテカルロでサンプリング
- Bayesian credible intervalとfrequentist confidence interval(信頼区間)は混同しやすい
- 前者は人々が計算したいもの，後者は実際に計算するものという違いがある
Inference for a difference in proportion
- 評判がポジティブ90人，ネガティブ10人の店とポジティブ2人，ネガティブ0人の店のどちらから買うべきか問題
- $\theta_1, \ \theta_2$ は2つの店の未知の信頼性
- それぞれ事前分布 $\theta_i \sim Beta(1,1)$ に従うとする
- 事後分布は $p(\theta_1|D_1) = Beta(91,11), \ p(\theta_2|D_2) = Beta(3,1)$
- $p(\theta_1 > \theta_2|D)$ を計算したいので $\delta = \theta_1 - \theta_2$ として
- $p(\delta>0|D) = \int_0^1 \int_0^1 I(\theta_1 > \theta_2) Beta(\theta_1|y_1 + 1, N_1 - y_1 + 1)$ $Beta(\theta_2|y_2+1,N_2 - y_2 + 1)d \theta_1 d \theta_2$
- $p(\delta>0|D) = 0.710$ なので店1から買った方がよさそう

Bayesian model selection

- モデルを高次元にするとoverfitするし，低次元だとunderfit
- 正則化パラメータも少ないとoverfitするし，多いとunderfit
- 一般に複雑さの異なるモデルの中からどれを選ぶべき？これがmodel selection
- 1つのアプローチはクロスバリデーションで全ての候補モデルの一般化エラーを推定
- もっと効率的なアプローチとしてモデル上で事後分布を計算
- $p(D|m) = \int p(D|\theta) p(\theta|m) d\theta$
- これはmarginal likelihood, integrated likelihood, evidence for model mなどと呼ばれる

Bayesian Occam's razor
- 単純にp(D|m)を使うとパラメータが多いモデルが有利っぽいが，最大値ではなく周辺化なので必ずしも良くなるわけではない
- これをBayesian Occam's razorと呼ぶ
BIC approximation to log marginal likelihood
- 真面目に上式を計算するのは大変なので，一つの単純な近似としてBayesian information criterion (BIC)がある
- $BIC \equiv \log p(D|\hat \theta) - \frac{dof(\hat \theta)}{2} \log N$
- $dof(\hat \theta)$ はモデルの自由度． $\hat \theta$ はモデルのMLE

Bayes factors
- モデルの事前分布を一様分布と仮定すると，モデル選択は最も高い周辺尤度をもつモデルを選択することと等価
- 次の夜にnull hypothesis M_0とalternative hypothesis M_1があるとき，Bayes factorは周辺尤度の比で定義できる
- $BF_{1,0} = \frac{p(D|M_1)}{p(D|M_0)}$
- これは尤度比のようなもの

Priors

- ベイズ統計でもっとも論争を呼ぶ点は事前分布の存在
- すべての推論はある仮定の下でなされているはずなのに，中には事前分布の影響を最小にしたいと考えている人たちもいる
- これについて簡単にまとめる
Uniformative priors
- pseudo countの大きさを減らせば，事前分布の影響は小さくできるので，最も情報のない事前分布として
- Beta(0.0)がある．これはHaldane priorとも呼ばれる
Jeffreys priors
- Jeffreysは情報のない事前分布をつくるために一般的な方法を考えた．それはJeffreys priorとして知られる
- もし $p(\phi)$ が無情報なら，その事前分布のre-parameterizationもまた無情報である．よって変数変換して
- $p_{\theta} (\theta) = p_{\phi} (\phi) |\frac{d \phi}{d \theta}|$
- となる． $I(\phi)$ をフィッシャー情報行列とすると， $p(\phi) \propto (I(\phi))^{1/2}$ であり
- これはMLEの安定性の指標となる．
  - Bernoulli and multinoulliのJeffreys priorとか
  - location and scale parameterのJeffreys priorとか
Robust priors
Mixtures of conjugate priors

Hierarchical Bayes

- 事前分布 $p(\theta|\eta)$ の $\eta$ どうやって特定するのか問題
- そのために階層ベイズとかmulti-level modelとかって呼ばれる方法があり，この本の後半でいっぱい出てくるよ

Empirical Bayes

- 階層ベイズでは潜在変数の事前分布を計算する必要があった
- けど，計算で楽するために，ハイパーパラメータの事後分布を点推定で近似する
- 多くの場合， $\eta$ の次元は $\theta$ の次元より小さいので， $\eta$ の事前分布に一様を仮定して次の $\eta$ を求める
- $\hat \eta = \arg \max p(D|\eta) = \arg \max \left[ \int p(D|\theta) p(\theta|\eta) d \theta \right]$
- これは経験ベイズとかtype-II maximum likelihoodなどと呼ばれる．ML分野ではevidence procedureとも．
- 経験ベイズは事前分布はデータとは無関係に選ばれるという主義をぶちこわす．
- しかし，階層ベイズモデルにおける推論の計算的に楽な近似として見ることができる
- 経験ベイズは良い頻度論的性質ももっているので(see Carlin and Louis 1996; Efron 2010)non-Bayesianにも広く使われている

Bayesian decition theory

Bayes estimators for common loss functions
The false positive vs false negative tradeoff

それはともかく，良い感じの自転車操業です．

Fire and Motion

MLaPP アドベントカレンダー5日目：Ch.5 Bayesian statistics

Summarizing posterior distributions

Bayesian model selection

Priors

Hierarchical Bayes

Empirical Bayes

Bayesian decition theory

コメント