統計・解析ビジネスユーザー必読のデータマイニング本
久々の更新です。前々から注目していた『Data Mining and Statistics for Decision Making』が届きました。ちょっと読んだだけでも、ここ数年で一番の応用本だと感じました。単なる応用本ではなく、解析やデータマイニングがビジネスに利用されることを非常に強く意識されている内容です。
Data Mining and Statistics for Decision Making (Wiley Series in Computational Statistics)
- 作者: Stéphane Tufféry
- 出版社/メーカー: Wiley
- 発売日: 2011/04/18
- メディア: ハードカバー
- 購入: 15人 クリック: 478回
- この商品を含むブログ (2件) を見る
見出しを読むだけでも素晴らしいのが分かります。おしゃれStatistics勉強会で使っている『Statistics』が統計学の基礎で、このデータマイニング本が応用といったところでしょうか。特に良いなと思ったのは、様々なモデルの利点と欠点が書いてあるところ。どんなデータにも当てはまる万能なモデルはあり得ないので、手法毎にメリット・デメリットを知っておく必要があります。それがまとまっているのはとても良いですね。最後のテキストマイニングとウェブマイニングは奥が深いので、さすがにさらっとしか書いてませんが、導入には十分かなと思います。解析ソフトも、今や3大ブランドのSPSS・SAS・Rの実例が多く、比較もあるのも好感を持てます。
以下、トピックを流し読みしながら行ったメモです。
【対象データ】
- CRM (customer relationship management)
- RFM (recency, frequency, monetary)
- where?, when?, how?, how mach?, what?
- SNS
- web
- CLF (common log format), XLF (extended log format)
【解析ソフト】
【手法】
- 主成分分析(PCA)、コレスポンデンス分析(CA)
- ニューラルネットワーク、SOM (self organization map)
- 階層型クラスタリング、k-means、ファジークラスタリング
- ハイブリッドクラスタリング、ニューラルクラスタリング
- 決定木、判別分析
- 関連解析(アソシエーション分析)
- 線形回帰、多変量線形回帰、一般線形モデル
- 正則化回帰(リッジ回帰、LASSO、LARS)
- PLS (partial least squares)
- ロバスト回帰
- ロジスティック回帰、PLSロジスティック回帰
- 一般化線形モデル
- ポアソン回帰
- 一般化加法モデル
- ナイーブベイズ、ベイジアンネットワーク
- SVM (support vector machine)
- 遺伝的アルゴリズム
- ブートストラップとアンサンブル法
- バッギング、ブースティング
【興味深いトピック】
- Data analysis is a tool for extracting the jewel of truth from the slurry of data.
- 2.11 モデルのモニタリング
- 3.13 変数の自動選択
- 3.14 共線性の検知
- 4.2.2 ProfitabilityとLoyalty
- 4.3 ビジネスセクターでのデータ(銀行、保険、電話)
- 5.4 R, SAS, IBM SPSSの比較
- 23ページに及ぶ比較表が圧巻!!
- 6.1 統計手法の分類
- 目的に応じた手法の分類表
- 7.3 コレスポンデンス解析
- 8.7.3 Kohonenネットワーク(SOM)
- ニューラルネットワークの枠組みで語られている
- 9.5.1 最適のクラスター数
- 9.8 クラスタリングの質の評価
- 9.10.4 凝集型階層クラスタリングの利点と欠点
- 9.11 ハイブリッドクラスタリング
- 表9.1 様々なクラスタリング手法
- 10 関連解析(アソシエーション分析)
- 11.3.4 過適合、overfitting
- 11.4.9 決定木の利点と欠点
- 11.7.5 観測値の影響
- 11.7.8 線形回帰での共線性の問題:Rを使った例
- 11.7.9 共線性の診断と解決法
- 11.7.12 ロバスト回帰
- 11.8.15 ロジスティック回帰の利点と欠点
- 11.11.1 ニューラルネットワークの利点と欠点
- 11.12.3 SVMの利点と欠点
- 11.16 クラスタリングと予測法の利用
- モデル構築をどのような手順で行うか?
- 12 スコアリング
- 対象者をどのようにスコアリングするか?
- 13.6 データマイニングにおける8つの誤解
- 14 テキストマイニング
- 15 ウェブマイニング