医療から宇宙へトップ分析会社

メモ：外れ値の検討

データ解析をしているときに常に悩ましいのが外れ値の存在です。そもそも外れ値とは、次のような原因で起こっていると考えられます。

データミス
ミスではなくて本当に外れている
- 集団の中で異質な観測値

データミスの場合は取り除いたり、修正したりします。本当に外れ値の場合は次のような処理をすることが考えられます。

取り除く（データを均質にするため）
「極端に大きい」または「小さい」という情報を残すためウィンザライゼーション（winzorization）を行う
- ウィンザライゼーション：上限・下限の閾値を決めてその値に置き換える
そのまま使う

線形モデルを当てはめるときは、結果変数yが正規分布に従っているという仮定を置いています。しかし説明変数xには何も仮定してませんので、外れ値を気にせずそのまま使うというのも選択肢の一つです。ですが「異質な観測値」であることは間違いないので、モデルのパラメータ（傾き）が大きく影響される可能性も高いです。もともとモデルを作るモチベーションとしては「均質な集団を数式で上手く説明する」ことが目的なので、異質な観測値は排除した方が無難かもしれません。

パッケージはourliers、extremevalues、mvoutlierなどがありますので、また調査して記事にしたいと思います。