じんたんのブログ

シカゴでの研究留学生活、その関連情報を記載していきます。

Multiple Comparison Procedures

www.amazon.com

 

本日も上記書籍の勉強+まとめ。

 

今回はp137 - 144のMultiple Comparison(多重比較)に関してまとめます。

 

有意水準(Significant level)を5%に設定して検定を行うことが多いと思いますが、これは5%の確率で本当はないのに有意差があると判断してしまう確率(False discovery、False-positive inference)と言い換えることができます。

 

一回の検定でのFalse discovery=IER (Individual error rate)と呼びます。

一回の検定は5%のFalse positive inferenceを来す可能性があるとすると、20回検定を行えば、1回False positive(5% × 20 = 100%)が起きることを示しています。

 

FWER (Familywise error rate)に関して:

1回の検定で誤って結論を導く可能性(False discovery)が5%で起きるとします。

20回検定を行なった場合、全て結果が真である確率は、

(1-0.05)^20 = 0.36 (0.95の20乗)

となります。

したがって、1回は誤って結論を導く可能性は1-0.36 = 0.64

つまり64%の確率で1回は本当はないのに、あると誤って結論を導いてしまう可能性があることを示しています。

したがって、1回1回の検定のFalse discoveryがきちんとコントロールされていても、多重比較ではFalse discoveryが試行回数を増やす毎に、増加してしまう事が分かります。

 

(補足)ここで疑問に思うのが、同じ検定を20回繰り返すと上記説明の通りなのですが、全く互いに関連のない仮説検定を20個行なった場合にはどう考えれば良いでしょうか?

=>この場合には、FWERの概念は当てはまりません(Faimilywiseという言葉から分かる通り、家族・グループ内で検討を繰り返した場合に当てはまります)。

 

FWERの補正方法  Bonferoni補正:

FWERをあるレベルにコントロールするには、個々の検定の有意水準を調整しなくてはいけません。

最も単純な方法はBonnferroni correction(ボンフェロー二補正)と呼ばれるもので、ここの検定の有意水準を検定の試行回数で補正する方法です。

FWERを5%と固定した場合には、ここの検定の有意水準が0.05/20=0.0025より下回った際に有意となることになります。FWERに対して設定した閾値を、検定の回数で割るだけなので、どの統計手法にも使用することができ、汎用性の高い手法ということができます。

しかし、Bonnferoni補正は非常に想定が厳しいので、False positiveは確かにしっかりコントロール可能となりますが、True positiveも見逃してしまう可能性が増えてしまいます(本当はあるのに、ないと判断してしまうβエラーが起こってしまう!!)。

そこでこの欠点を調整した汎用性の高い手法がHolm法となります(本書には記載なし)。

20個の仮説を検定するとして、Holm法では計算された20個のp値を小さい順に並べます。最も低いp値に対してはBonferonni補正と同様に0.05/20=0.0025と比較しますが、それ以降は0.05/20-k (k=1, 2, 3, ---19)と割る数を減らしていくことで、βエラーを減らすようにしています。

 

FDR(False discovery rate)の調整方法 Hochberg sequential procedure:

上記FWERの調整はβエラーを無視して、αエラーを調整(False discovery)を厳密にコントロールする方法でしたが、逆にαエラーをある程度許容しつつ、βエラーを減らす手法も存在ます。それがFDRです(本書の中にはここの導入が一切書かれておらず、いきなりHochberg sequential procedureの説明に入るため、少し理解が困難であり、追加説明)。

Hochberg sequential procedureの方法は

1、個々のp値を大きいものから順に並べる。

2、一番大きなp値が有意水準5%を下回っていれば、以下全て有意と判断。

3、一番大きなp値が有意水準5%を下回っていない→2番目に大きなp値を0.05/2と比較して、p値が0.025よりも小さければ以下全て有意。

4、二番目に大きなp値が有意水準0.05/2を下回っていない→3番目に大きなp値を0.05/3と比較して、p値が0.017より小さければ以下全て有意。

以下繰り返す、というように比較を繰り返し行なっていきます。

Holm法と違う点は、Holmではp値を小さい順に並べたのに対して、Hochbergは大きいものから並べることで、有意になりやすい状況を作っている(True positiveを拾いやすくしている)ところにあります。

 

多重比較の補正が必要かどうかはどう判断するか!?

恐らく一番重要な点はここだと思います。

例えば、異なった研究において、糖尿病が心筋梗塞と関連するか、尿糖が腎機能障害と関連するかというものを検討する際には、多重比較は必要ではありません。

これはリサーチクエッションに関連がないためです。

一方で、一つのリサーチクエッションを検討するのにfamily of testを行う際には、多重比較を適応しなくてはなりません。

 

上記以外にConfirmatoryかExploratoryかという点も需要です。

Exploratoryの場合には、そこで仮説をたて、それをConfirmatoryで確認するという流れになります。したがって、Exploratoryの時点で本当は関連があるのに、ないと判断してしまった場合、それは以後検討される事はなくなってしまいます。したがって、Exploratoryではざっくりと可能性のあるものを多く拾う必要があるので、βエラーが多くなる多重比較はこの時点では向かないことになります。また、Exploratoryの場合には、検定の数は多くなり、仮説の選択もデータに依存するため、多重比較は不要であったり、困難である可能性すらあります。

 

 

最後になりますが、Familywise erro rate (FWER)とFalse discovery rate (FDR)に関しては、大阪大学腎臓内科のホームページが個人的にはよくまとまっていて、参考になると思います。

www.med.osaka-u.ac.jp