大規模データの読み込み

以前から言っていたマイクロアレイのデータをread.csvで読み込んでみました。

2万遺伝子×3千サンプルで、容量は670M(!)。

結論からいうと、約10分で読み込めました。

読み込んだ後にmemory.limit(T)で使用したメモリを調べてみると、4661と返ってきました。

このデータで全てのメモリを食っているわけではないにしろ、少なく見積もっても4Gは使っているのか。。。


ということは読み込むと、だいたい4G/670Mで6倍のメモリを使うということか?

変数が50個しかなかったとすると、サンプルは120万で同等の容量になるはず。

120万人×50変数は扱える、と。


しかもマイクロアレイデータは小数点も含むから、整数しかなかったらもっと多くの人数を扱えるかな。

100万人単位のデータは解析できるわけですかね。

1,000万人単位になると難しくなりそう(100万人×10年でも同じ)。

でも技術は進歩するわけだから、数年後のパソコンだったら解析できるかもしれませんね。

実際、このアレイデータは数年前は読み込めませんでしたし。


そうなると、スパコンは例えば細胞レベルでの解析(兆単位でサンプルがあるとか)に役に立つのでは?

富士通の京は、兆の1万倍。

遺伝子データは高々万単位なので、スパコンを使うまでもなくなってきているのかもしれませんね。


あとは、本当に”遺伝”情報を調べようとすると、両親や親族の情報も入ってくるから累乗で効いてくるのかな?

ただ”遺伝”情報は倫理的な制約が大きくて、研究自体が難しいですけど。。。

ページTOPへ