MLaPP アドベントカレンダー6日目:Ch.6 Frequentist statistics
というわけで,昨日はベイズ統計でしたが,本日は頻度論的統計の章です.頻度論から統計学を知った身としては,頻度論の問題点を指摘されているのは自分の黒歴史を見つめているようで悲しい気分になります….とはいえ,最近は完全に発想がベイジアンになっているのですが.
頻度論統計のベイズ統計の一番の視点の違いは最初にも書かれているように,頻度論はパラメータが固定(真のパラメータがある),データはそこからサンプリングされたに過ぎない(ランダムでありうる)と考えているのに対し,ベイズ統計はデータは固定(だって目の前にデータがあるじゃん!),パラメータはランダム(事前分布などに応じて変わりうる)と考えています.これらの違いを意識すると,どっちの立場の話もすっきりするのではないでしょうか.
Sampling distribution of an estimator
-
- 頻度統計ではパラメータ推定値はestimator をデータDに適用することによって計算される
- パラメータが固定で,データがランダムと捉える.これはベイズ統計とまったく逆
- ある真の分布からデータがサンプルされたと考え,データから真の分布のパラメータを推定する
- Bootstrap
Frequentist decision theory
- Bayes risk
- Minimax risk
- Admissible estimator
- Stein's paradox
- に従うN個のi.i.dな変数に対して,を推定したい
- MLEを使うとである.これはのとき,二次損失のもとでは許容できないパラメータである
- のとき,最尤推定量(sample mean)よりもより小さいリスク(MSE)となるshrinkage estimatorがある
- これはStein's paradoxとして知られている
- Admissibility is not enough
Desirable properties of estimators
- Consistent estimators
- データが大きくなるにつれて,推定量が収束する
- Unbiased estimators
- 真のパラメータとの差の期待値が0であるとき,バイアスがない(unbiased)という
- Minimum variance estimators
- unbiasedだけでOKではなくて,varianceも重要
- Craner-Rao lower bound
- The bias-variance tradeoff
- MSE = variance + bias^2
- この関係性をbias-variance tradeoff (Geman et al. 1992)と呼ぶ
Empirical risk minimization
- Regularized risk minimization
- 経験リスクは自然分布が自然な分布であるならば,ベイズリスクと一致する(Minka, 2001)
- Structural risk minimization
- Estimationg the risk using cross validation
- The one standard error rule
- CV for model selection in non-probabilistic unsupervised learning
- Upper bounding the risk using statistical learning theory
- Surrogate loss function
Pathologies of frequentist statistics
-
- 頻度統計はpathologyとして知られる,あまり望ましくない振る舞いが知られている
- 以下でいくつかの例を示す
- Counter-intuitive behavior of confidence intervals
- p-values considered harmful
- The likelihood principle
- Why isn't everyone a Bayesian?
- 頻度論的統計学者のEfronは"Why isn't everyone a Bayesian?"というタイトルで論文(Efron, 1986)を書いているので以下に引用
このタイトルは少なくとも2つの点で合理的な質問だ.1点目はすべての人は以前はベイジアンだった.ラプラスは推論問題において,心底ベイズの 定理を支持していたし,19世紀の科学者は大抵そうだったろう.これはガウスも含む.彼の仕事は頻度論的統計の分野で語られがちであるけれども.
2点目の,より重要な点として,ベイズ論の説得力だ.Savegeやde Finettiに続く現代的な統計学者はベイズ推論のパワフルな理論的論拠を有している.その結果として,頻度論的な見方との不一致がカタログのように多く生まれた.
にもかかわらず,すべての人はベイジアンではない.現代(1986)は統計学が科学の分野で広く使われるようになった初めての世紀であり,実際,20世紀の統計学は主にノンベイジアンであった.しかし,Lindley (1975)は21世紀には変化すると予測している.
-
- Lindleyが正しいかどうかは時間が経てばわかるだろう.
コメント
更新する時間が当初に比べて有意に遅れているように思えますが,気のせいではありません.