医療から宇宙へトップ分析会社

コレスポンデンス分析についてメモ

この本より。

Data Mining and Statistics for Decision Making (Wiley Series in Computational Statistics)

作者: StÃ©phane TuffÃ©ry
出版社/メーカー: Wiley
発売日: 2011/04/18
メディア: ハードカバー
購入: 15人クリック: 478回
この商品を含むブログ (2件) を見る

カテゴリ変数Aとカテゴリ変数Bの関係は分割表で表現でき、χ二乗検定を行えば関連性をチェックできます。しかしカテゴリの数が多くなったり変数の数が多くなると、どのセルにどんな関係があるのかをチェックするのが難しくなります。そのような時に強力な分析手法がコレスポンデンス分析であり、分割表を次のような特徴を持つ2次元グラフで表現することができます。

A、Bの正の相関が強いカテゴリ（頻度の多いセル）は近い
A、Bの負の相関が強いカテゴリ（頻度の少ないセル）は逆に配置される
最も強い逆相関は第1軸（横軸）で示される
どのカテゴリにも関連していないカテゴリは中心にくる

数学上は、χ二乗距離を用いた主成分分析（PCA）になる。分割表を「データ」と考えて距離を計算する。

同じ変数同士のカテゴリが近い→もう一方の変数での分布が似ている
異なる変数同士のカテゴリが近い→クロスセルの頻度が（期待値より）高い

多変量コレスポンデンス分析（multiple correspondence analysis）では、変数が2より多い場合のコレスポンデンス分析を行う。多変量分割表（Burt表）を使って計算する。

farms.mca <- mca(farms, abbrev=TRUE)
farms.mca
plot(farms.mca)

しかし変数が多いとカテゴリも多くなるので解釈が難しい。