未分類

Kaglle – タイタニックで学んだN個のこと#1

はじめに

タイタニックチュートリアルご存知ですか?
データ分析のコンペティション、Kaggleのチュートリアルとなる問題で、これからデータ分析をやろうという人の登竜門と言われてるとかいないとか。

映画にもなった沈没船タイタニックの生存者を、乗客の年齢や性別などのプロフィールをもとに予測する問題です。この問題のスコアが0.8を超えると一人前といっていいんだとか。

私もスコア0.8を超えたので、この記事でまとめたいと思います。

  • データの型
  • 不均衡なデータ
  • 精度の評価
  • ドメイン知識
  • モデルの選択
  • 変数の選択

タイタニックチュートリアル

タイタニックチュートリアルで与えられるデータは3つです。

  • train.csv(学習データ)
  • test.csv(問題データ)
  • gender_submission.csv(解答例)

train.csvにはSurvived(生存)という値がある一方で、test.csvには存在しません。予測モデルからtest.csvのSurvivedを予測しましょうというのが問題です。

gender_submission.csvには解答例が記載されています。アルゴリズムは女性=生存者とするアルゴリズムだそうです。

広告

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト /  変更 )

Google フォト

Google アカウントを使ってコメントしています。 ログアウト /  変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト /  変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト /  変更 )

%s と連携中