[勉強]統計はデータ、データは数、数は力
昨日テレビで田中角栄先生の「政治は数、数は力、力はカネ」という言葉を聞き、統計学では何だろうと考えた。
最近自分の研究で遺伝子分野などの超高次元小標本データでも、サンプル数が多ければ予測アルゴリズムを検出できそうなことが分かってきた(今のところ片群100もあれば良さそう)。
やっぱりType IIの状況(真の状況が差がある場合)では検出力が重要であり、検出力は数の増加関数になっている。
ごく当たり前のことなんだけど、変数が数万とかあっても結局は統計学なんだなぁと感じるわけです。
健診データとかの場合はどうなるか考えると、対象者が数万居て変数が数十。
これだけ居れば検出力は充分かとも思うんだけど、サブグループにしていくと急激に数が減るわけです。
例えば男性、喫煙あり、服薬あり、HbA1c 6.1以上、収縮期血圧140以上とかのグループの特性を知りたかったりする。
その場合は全体集団から限定してサブグループを作るんだけど、数百人とか数十人まで減ってしまうのではないかな?
そうなるとやっぱり検出力も低くなってしまうわけです。
仮説が何なのかをはっきりとさせて、その仮説に基づいてサンプルサイズを設計することは健診データでも大事そうですね。
ちなみに今回の研究内容は6/15の第1回IBSML研究会で発表します。
なぜか大トリになっていましたがw