じんたんのブログ

シカゴでの研究留学生活、その関連情報を記載していきます。

欠損値に関して

jamaevidence.mhmedical.com

 

上記本のMissing data(p89 - 95)に関して本日は読んだのでMemo。

 

欠損値の原因:

1、患者の未受診

2、フォローアップの未受診、連絡困難。

3、情報源のデータ欠損

4、データが使用制限、アクセス困難(行っていない検査データの取得など)

5、臨床的にデータ取得が困難(鎮静患者に対するComa scaleの取得はMissingとなり得る)

 

欠損値があると何が問題になるのか?

多くのStatistical software (SAS, STATA等)では、欠損値を含むVariableが除外され解析されてしまう=>サンプルサイズの減少(統計学的検出力の低下)、治療効果推定にBiasが生じてしまい、正確でなくなってしまう。

 

欠損値があるデータを使用する際に、考慮しなければならないこと

1、なぜデータが欠損しているのか?

2、データが欠損している患者と、完全なデータの患者では何が異なっているのか?

3、観察データは欠損値の予測に役立つか?

 

欠損値の分類:

1、MCAR (Missing completely at random): 

欠損値が観察された、観察されていない患者データと全く無関係である場合。

これは全データの10-20%程度と言われている。

この場合に限り、Complete case analysis (欠損値がある患者を除外して、完全なデータを作成すること)を行ってもBiasのかかった推定値は算出されない。ただし、この場合であっても、Sample sizeが減少することには変わりないので、統計学的な検出力の低下は懸念される。

2、MAR (Missing at random):

欠損値が観察されたデータと関連があり、観察データを使用して欠損値を予測することが可能である欠損値のタイプ。

これは全データの50-60%前後を占めると報告されており、多くはこの欠損タイプ。

単純なImputationではbaiasのかかった、精度の高い誤った結果を算出する可能性があるので注意が必要。

3、MNAR (Missing not at random):

最も厄介な欠損値のタイプ。

全データの10-20%程度と言われている。

欠損値が観察されていない、またはわかっていない因子と関連を持っているため、欠損値を予測することが不可能であり、調整することが困難である。

 

=> 上記分類が存在するが、実際にはデータ欠損の原因を特定することができない場合が多く、多くの場合MARを想定してImputationすることが最も現実的であると考えられる。

 

Simple Imputationの問題点:

LOCF (Last observation carried forward)、complete case analysis(前述)、mean value impuation、random impurationなどが存在する。

いずれの方法を使用しても、biasが生じ、精度を人工的に高めてしまう恐れがある(95% CIの幅を狭くし、p値を小さくする)。したがって、maximum likelihood-based method、hot deck imptation、multiple impuationがより良い推定値、不確実性の測定には有用である。

 

A. Complete case analysis:

MCARではければ、biasを生じさせ、sample sizeの減少から検出力の低下を引き起こす。

 

B. LOCF (Last observation carried forward):

最後の観察データで欠損値を補完する方法。

ただし、これは最後の観察データが時間経過等に関わらず、常に変化しないと想定しているため、信頼性に乏しい。

 

C. Mean value impuation:

観測値のvariationが極端に小さくなり、biasも強く、人工的に不確かな推定値の精度を上げてしまうリスクがある。

 

D. Random number imputation: 

繰り返し同じ数字で補完することが避けられるため、variationが小さくなることはないが、観測値とは全く無関係な数字で補完する問題点がある。

 

したがって、Multiple impuationを使用しましょうという内容であり、Multiple imputationに関しては、またChapterを別にして述べられていた。

次回はMultiple imputationのChapterをまとめる予定。