メモ:外れ値の検討

データ解析をしているときに常に悩ましいのが外れ値の存在です。そもそも外れ値とは、次のような原因で起こっていると考えられます。

  1. データミス
  2. ミスではなくて本当に外れている
    • 集団の中で異質な観測値

データミスの場合は取り除いたり、修正したりします。本当に外れ値の場合は次のような処理をすることが考えられます。

  • 取り除く(データを均質にするため)
  • 「極端に大きい」または「小さい」という情報を残すためウィンザライゼーション(winzorization)を行う
    • ウィンザライゼーション:上限・下限の閾値を決めてその値に置き換える
  • そのまま使う

線形モデルを当てはめるときは、結果変数yが正規分布に従っているという仮定を置いています。しかし説明変数xには何も仮定してませんので、外れ値を気にせずそのまま使うというのも選択肢の一つです。ですが「異質な観測値」であることは間違いないので、モデルのパラメータ(傾き)が大きく影響される可能性も高いです。もともとモデルを作るモチベーションとしては「均質な集団を数式で上手く説明する」ことが目的なので、異質な観測値は排除した方が無難かもしれません。

パッケージはourliers、extremevalues、mvoutlierなどがありますので、また調査して記事にしたいと思います。

ページTOPへ