未分類

Kaglle – タイタニックで学んだN個のこと#3

不均衡なデータ

機械学習を行う際に、予測対象が不均衡なデータを均一にすることです。

タイタニックのデータセットtrain.csvでは、予測対象”Survived(生存したか)”の値が”1(生存)” が342人に対して、”0(死亡)”が549人と死亡者のデータが多く含まれています。おおよその比は(死亡:生存)=(62:38)です。これを不均衡データといいます。

 カテゴリ  数
0  549
 1  342

そのまま学習を行ってしまうと、まったく予測せずとも、すべての答えを”0(死亡)”にするだけでも、60%正解となるため、すべての答えを”0(死亡)”にするという学習結果になってしまいます。

そのような問題を解決するために、”0(死亡)”と”1(生存)”の割合をちょうど(50:50)にする必要があるのです。

そのために、以下の3つのいずれかの対策を行う必要があります。

  • ダウンサンプリング(多いカテゴリのデータを減らす)
  • オーバーサンプリング(少ないカテゴリのデータを人工的に増やす)
  • クラス重み付け(カテゴリの数にあわせてデータに重みづけをする)

今回は一番簡単なダウンサンプリングを行います。つまり、多いほうのカテゴリ”0(死亡)”のデータの数を、少ない方のカテゴリ”1(生存)”のデータ数にあわせて、549から342に減らします。

その際に、学習に悪影響を与えないために、549のデータから342のデータをランダムにサンプリングする必要があります。

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト /  変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト /  変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト /  変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト /  変更 )

%s と連携中