MLaPP アドベントカレンダー6日目：Ch.6 Frequentist statistics

というわけで，昨日はベイズ統計でしたが，本日は頻度論的統計の章です．頻度論から統計学を知った身としては，頻度論の問題点を指摘されているのは自分の黒歴史を見つめているようで悲しい気分になります…．とはいえ，最近は完全に発想がベイジアンになっているのですが．

頻度論統計のベイズ統計の一番の視点の違いは最初にも書かれているように，頻度論はパラメータが固定（真のパラメータがある），データはそこからサンプリングされたに過ぎない（ランダムでありうる）と考えているのに対し，ベイズ統計はデータは固定（だって目の前にデータがあるじゃん！），パラメータはランダム（事前分布などに応じて変わりうる）と考えています．これらの違いを意識すると，どっちの立場の話もすっきりするのではないでしょうか．

Sampling distribution of an estimator

- 頻度統計ではパラメータ推定値 $\hat \theta$ はestimator $\delta$ をデータDに適用することによって計算される
- パラメータが固定で，データがランダムと捉える．これはベイズ統計とまったく逆
- ある真の分布からデータがサンプルされたと考え，データから真の分布のパラメータを推定する
Bootstrap
- ブートストラップはサンプリング分布を近似するモンテカルロ手法
- 推定量が真のパラメータの複雑な関数のときに有用
  - ブートストラップの基本的な考え方
    - 真の分布のパラメータを知っているならば，任意のサイズのfake dataをつくることができる
    - ブートストラップでは各サンプルデータから推定量を計算し，サンプリング分布の推定として経験分布を用いる
    - $\theta$ は未知なので，パラメトリックブートストラップの考えは $\hat \theta(D)$ を代わりに用いてサンプルを生成する
    - ノンパラメトリックブートストラップはオリジナルデータDからxをサンプリングし，分布を計算する

Frequentist decision theory

- 頻度統計では損失関数や尤度はあるが，事前分布がないので，事後分布や事後期待損失がない
- そのため，ベイズ統計のように自動的に最適な推定量を導出する方法はない
- 代わりに頻度的アプローチでは推定量や決定プロセスを自由に選ぶことができる
- 推定量を選ぶとリスクを式(6.9)のように定義できる
Bayes risk
Minimax risk
Admissible estimator
- 頻度論的決定理論の基本的な問題はリスクを評価するために真の分布を知ること
- しかし，ある場合においては推定値は最尤推定量であるにもかかわらず他より悪くなることがある
- 特にすべての $\theta$ において， $R(\theta, \delta_1) \leq R(\theta, \delta_2)$ ならば， $\delta_1$ は $\delta_2$ を支配するという
- 他の推定量によって完全に支配されないならば，その推定量はadmissibleであるという
Stein's paradox
- $N(\theta_i, 0)$ に従うN個のi.i.dな変数 $X_i$ に対して， $\theta_i$ を推定したい
- MLEを使うと $\hat \theta_i = x_i$ である．これは $N \geq 4$ のとき，二次損失のもとでは許容できないパラメータである
- $N \geq 4$ のとき，最尤推定量(sample mean)よりもより小さいリスク(MSE)となるshrinkage estimatorがある
- これはStein's paradoxとして知られている
Admissibility is not enough

Desirable properties of estimators

Consistent estimators
- データが大きくなるにつれて，推定量が収束する
Unbiased estimators
- 真のパラメータとの差の期待値が0であるとき，バイアスがない(unbiased)という
Minimum variance estimators
- unbiasedだけでOKではなくて，varianceも重要
- Craner-Rao lower bound
The bias-variance tradeoff
- MSE = variance + bias^2
- この関係性をbias-variance tradeoff (Geman et al. 1992)と呼ぶ

Empirical risk minimization

- Frequentist decision thoeryは真のデータ分布を知っていることに依存しているので，実際にはリスク関数を計算できないという問題がある
- (逆にベイズの事後期待損失はそうではない)
- この問題を避けるために，真のパラメータと推定量によるロス関数 $L(\theta, \delta (D))$ の代わりに
- 真のレスポンスyとxが与えられたときの予測 $\delta(x)$ によるロス関数 $L(y, \delta(x))$ を考える
- これは式(6.47)
- ただし，真のデータ分布はわからないままなので，経験分布を用いる，これは式(6.49)の経験リスク
Regularized risk minimization
- 経験リスクは自然分布が自然な分布であるならば，ベイズリスクと一致する(Minka, 2001)
Structural risk minimization
Estimationg the risk using cross validation
The one standard error rule
CV for model selection in non-probabilistic unsupervised learning
Upper bounding the risk using statistical learning theory
Surrogate loss function

Pathologies of frequentist statistics

- 頻度統計はpathologyとして知られる，あまり望ましくない振る舞いが知られている
- 以下でいくつかの例を示す
Counter-intuitive behavior of confidence intervals
p-values considered harmful
The likelihood principle
Why isn't everyone a Bayesian?
- 頻度論的統計学者のEfronは"Why isn't everyone a Bayesian?"というタイトルで論文(Efron, 1986)を書いているので以下に引用

このタイトルは少なくとも2つの点で合理的な質問だ．1点目はすべての人は以前はベイジアンだった．ラプラスは推論問題において，心底ベイズの定理を支持していたし，19世紀の科学者は大抵そうだったろう．これはガウスも含む．彼の仕事は頻度論的統計の分野で語られがちであるけれども．
2点目の，より重要な点として，ベイズ論の説得力だ．Savegeやde Finettiに続く現代的な統計学者はベイズ推論のパワフルな理論的論拠を有している．その結果として，頻度論的な見方との不一致がカタログのように多く生まれた．
にもかかわらず，すべての人はベイジアンではない．現代(1986)は統計学が科学の分野で広く使われるようになった初めての世紀であり，実際，20世紀の統計学は主にノンベイジアンであった．しかし，Lindley (1975)は21世紀には変化すると予測している．

- Lindleyが正しいかどうかは時間が経てばわかるだろう．

更新する時間が当初に比べて有意に遅れているように思えますが，気のせいではありません．

Fire and Motion