ディリクレ過程混合モデル(The Dirichlet Process Mixture (DPM) Model)は難しいです。。。
今日は言語処理の分野で良く使われていると言われるディリクレ過程混合モデル(DPM)についてです。
記事にはしているものの、自分でもぶっちゃけ良く分かっていませんorz
あまり慣れない分布なのでイメージが付きにくいですね。。。
ディリクレ分布については多項分布の共役事前分布になっているという程度の知識しかありません。
ベータ分布とか出てこられても、、、ねぇ。
参考にさせて頂いたのは以下の2つの資料。
http://d.hatena.ne.jp/ryamada22/20050528/1117267472
http://biocomp.bioen.uiuc.edu/journal_club_web/dirichlet.pdf
下のURLにあるPDF資料に沿ってホワイトボードで解説したのが次の画像です。(我ながら汚いですが、、)
PDFの方の資料に沿って説明しているのですが、ポリアの壺のところで断念。
とりあえずRに関数はあるので分析&クラスタリングはできるのですが、内部的になにをやっているのがイメージを付けにくいですね。
あとはRでの乱数発生。
#---ガンマ分布 #---ある制限時間内に2匹、3匹、5匹釣ることが期待されている状況 n <- 100 mean(rgamma(n,2)) mean(rgamma(n,3)) mean(rgamma(n,5)) #---ディリクレ分布 library(MCMCpack) rdirichlet(n,c(2,3,5))
そのうち分かるようになるかなと思いつつ、とりあえず記録しておきます。