データサイエンティストを目指すなら知っておきたいRパッケージ10個+α
元ネタのブログは「10 R packages every data scientist should know about」と「10 R packages I wish I knew about earlier」です。紹介されているパッケージはどれも良いのでメモしておきます。私が「取得した方がいいだろうなー」と思う順番に並べ替えてます。サンプルコードは後者の記事に載ってます。
- randomForest:超強力な汎用予測モデル
- RPostgreSQL, RMYSQL, RMongo, RODBC, RSQLite:各種データベースへの接続
- plyr:データ集約
- reshape2:データ加工
- forecast:時系列予測
- stringr:文字列操作
- lubridate:日付操作
- sqldf:SQLライクなデータ操作
- ggplot2:綺麗なプロットを描く
- qcc:品質管理
個人的には、下の3つは優先度低いです。理由は、sqldf:R使いっぽくない、ggplot2:指定の仕方が特殊なので、結局描きたい絵を描くのが難しい(エクセルやパワポを使った方が早いことも)、qcc:使い所があまり多くない。
プラス、下記に私のオススメパッケージを紹介しておきます。
- party:決定木が綺麗に描ける
- gbm:randomForestより汎用性の高い超強力な予測モデル
- survival:生存分析
- caTools, Epi:予測モデルの性能評価に必要なROC曲線が描ける、AUCを計算できる
- XLConnect:エクセルのデータを読み込める、Rオブジェクトをエクセルに保存できる
これらが全部使いこなせれば、データサイエンティストのR技術は充分のように思います。あとは必要になったものをCRANで調べながら分析を進めていくスキルが必要ですね。