メモ:外れ値の検討
データ解析をしているときに常に悩ましいのが外れ値の存在です。そもそも外れ値とは、次のような原因で起こっていると考えられます。
- データミス
- ミスではなくて本当に外れている
- 集団の中で異質な観測値
データミスの場合は取り除いたり、修正したりします。本当に外れ値の場合は次のような処理をすることが考えられます。
- 取り除く(データを均質にするため)
- 「極端に大きい」または「小さい」という情報を残すためウィンザライゼーション(winzorization)を行う
- ウィンザライゼーション:上限・下限の閾値を決めてその値に置き換える
- そのまま使う
線形モデルを当てはめるときは、結果変数yが正規分布に従っているという仮定を置いています。しかし説明変数xには何も仮定してませんので、外れ値を気にせずそのまま使うというのも選択肢の一つです。ですが「異質な観測値」であることは間違いないので、モデルのパラメータ(傾き)が大きく影響される可能性も高いです。もともとモデルを作るモチベーションとしては「均質な集団を数式で上手く説明する」ことが目的なので、異質な観測値は排除した方が無難かもしれません。
パッケージはourliers、extremevalues、mvoutlierなどがありますので、また調査して記事にしたいと思います。