tropicbirdのブログ

備忘録です。

【kaggle】タイタニックのコンペ(1)

Kaggleで定番のタイタニック号の生存者の分析をPythonで行う記録。

↓コンペのサイトはここです。
Titanic: Machine Learning from Disaster | Kaggle

Pythonによる分析の一例をManav Sehgalさんのカーネルを参考に(と言いうかこれに沿って)行います。
↓Manav Sehgalさんの分析手順はここで確認ができます。
Titanic Data Science Solutions | Kaggle

1.Kaggleのコンペの一般的な分析手順

1.問題を確認する。
2.テストデータとトレーニングデータを入手する。
3.データを分析がしやすいカタチに整える。
4.データを分析し、データのパターンを読み取り、データを理解する。
5.適切な予測モデルを作成、適用し、問題を解決する。
6.視覚化やレポートの作成を行い、課題を解決するまでのステップ及び最終結果を整理する。
7.結果をKaggleのコンペに提出する。
※これらは一般的な手順ですが、臨機応変に分析手順を変更します。3.の前に視覚化を行うなど。

2.今回の問題を確認する。

タイタニック号には2,224名の乗客とクルーがいたが、氷山との追突事後で、1,502名が亡くなった。
・性別や搭乗クラスなど属性と生存の有無が記されているトレーニングデータを使用し、テストデータの乗客の生存について予測すること。

3.データサイエンスによる課題解決へワークフローには次の7つのゴールがある。

・分類(Classifying):標本を属性を基に分類する。属性から相関の可能性などを考察する。
・相関(Correlating):属性(定量的データ、質的なデータ)と求めるゴール(今回の場合生存の有無)の相関について検証する。
・変換(Converting):適用するモデルに合わせて、定量的データを質的なデータに変換する(逆もしかり)。
・補完(Completing):欠損値の扱いを決める。(例:平均値で埋める)
・補正(Correcting):標本から異常値を補正または取り除く。
・作成(Creating):既存の属性からモデルに必要な属性を作成、追加する。
・作図(Charting):分析の結果を視覚的に分かるように示す。