泰坦尼克号数据分析 报告
泰坦尼克号是一艘著名的豪华客轮,在其处女航中遭遇灾难,导致1500多名乘客和船员丧生。在这个项目中,我们将基于泰坦尼克号数据集探索一个基于机器学习的问题,该数据集包含有关乘客的信息,如他们的年龄、性别、船舱等级以及他们是否在船沉没时幸存下来。本项目的目标是使用机器学习技术构建一个能够根据可用特征准确预测给定乘客是否在泰坦尼克号灾难中幸存的模型。这个问题不仅对历史感兴趣,还具有实际应用,比如改善现代
介绍
泰坦尼克号是一艘著名的豪华客轮,在其处女航中遭遇灾难,导致1500多名乘客和船员丧生。在这个项目中,我们将基于泰坦尼克号数据集探索一个基于机器学习的问题,该数据集包含有关乘客的信息,如他们的年龄、性别、船舱等级以及他们是否在船沉没时幸存下来。
本项目的目标是使用机器学习技术构建一个能够根据可用特征准确预测给定乘客是否在泰坦尼克号灾难中幸存的模型。这个问题不仅对历史感兴趣,还具有实际应用,比如改善现代船只的安全措施。
为了解决这个问题,我们将遵循标准的机器学习工作流程,包括数据预处理、特征工程、模型选择和评估。到项目结束时,我们希望已经构建了一个强大的模型,可以根据乘客的特征准确预测泰坦尼克号乘客的生存情况。
数据集
泰坦尼克号数据集包含了1912年泰坦尼克号处女航期间891名乘客的信息。该数据集来自Kaggle的“泰坦尼克号:来自灾难的机器学习”竞赛,可以在以下网址找到:
https://www.kaggle.com/competitions/titanic/data
数据集包括以下列:
- 乘客ID:每个乘客的唯一标识符。
- 幸存:一个二进制变量,表示乘客是否在灾难中幸存(0 = 否,1 = 是)。
- 船舱等级:乘客的船票等级(1 = 一等舱,2 = 二等舱,3 = 三等舱)。
- 姓名:乘客的姓名。
- 性别:乘客的性别。
- 年龄:乘客的年龄(一些条目缺失)。
- SibSp:乘客在船上拥有的兄弟姐妹或配偶的数量。
- Parch:乘客在船上拥有的父母或子女的数量。
- 票号:乘客的票号。
- 票价:乘客为他们的票支付的费用。
- 船舱号:乘客的船舱号码(一些条目缺失)。
- 登船港口:乘客登船的港口(C = 瑟堡,Q = 皇后镇,S = 南安普敦)(一些条目缺失)。
数据集包括数值和分类变量的混合,其中一些列包含缺失值。本项目的目标是构建一个机器学习模型,根据数据集中可用的特征预测给定乘客是否在灾难中幸存。
探索数据分析(EDA)

条形图显示了幸存乘客和未幸存乘客的特定特征(性别、船舱等级或兄弟姐妹配偶数量)的分布。蓝色条表示幸存乘客的数量,橙色条表示未幸存乘客的数量。
x轴表示正在分析的特征的类别(例如,性别特征的“男性”和“女性”),y轴表示每个类别中乘客的数量。
该图对于可视化给定特征与生存之间的关系很有用,可以帮助确定哪些特征可能是生存的良好预测因子。例如,在性别特征的情况下,图清楚地显示,相比于男性乘客,更高比例的女性乘客幸存下来。
更多推荐


所有评论(0)