R语言Kaggle泰坦尼克号性别阶级模型数据分析案例
原文链接:http://tecdat.cn/?p=6062
这场灾难以拯救“妇女和儿童第一”而闻名,所以让我们来看看性别和年龄变量。我们将从乘客的性别开始。将数据重新加载到R后,请查看此变量的摘要:
所以我们看到大多数乘客都是男性。对幸存的男性和女性进行双向比较:
我们希望看到的是行数比例,即存活的每个性别的比例。
我们现在可以看到大多数女性幸存下来,并且男性的比例非常低。
在这里,我们开始像以前一样添加“everyone dies”预测列,除了我们将抛弃rep命令并将零指定给整个列。然后我们改变了相同的列,其中1为乘客的变量“Sex”等于“女性”。
现在让我们写一个新的提交并发送给Kaggle
现在让我们开始深入研究年龄变量:
数据分析中可能缺少值,这可能会导致现实世界中出现的各种问题,而这些问题有时很难处理。目前我们可以假设177个缺失值是其余乘客的平均年龄。
现在我们有一个连续的变量,我们创建一个新的变量“Child”来表明乘客是否低于18岁:
现在我们要创建一个包含性别和年龄的表,以查看不同子集的生存比例。首先让我们尝试找出不同子集的幸存者数量:
但我们不知道每个子集中的总人数; 让我们来看看:
我们需要创建一个函数,它将子集向量作为输入,并将sum和length命令应用于它,然后进行除法以给出一个比例。
虽票价是一个连续变量,需要将其简化为可以轻松制表的内容。我们将票价收入不到10美元,10美元到20美元,20美元到30美元以及30美元以上,并将其存储到一个新变量中:
现在让我们运行一个更长的聚合函数,看看这里有什么有趣的东西:
虽然大多数男性,无论是班级还是票价仍然做得不好。
让我们根据新的见解做出新的预测。
好的,让我们创建输出文件,看看我们是否做得更好!
有问题欢迎下方留言!
有问题欢迎联系我们!
大数据部落 -中国专业的第三方数据服务提供商,提供定制化的一站式数据挖掘和统计分析咨询服务
统计分析和数据挖掘咨询服务:y0.cn/teradat(咨询服务请联系官网客服)
【服务场景】
科研项目; 公司项目外包;线上线下一对一培训;数据爬虫采集;学术研究;报告撰写;市场调查。
【大数据部落】提供定制化的一站式数据挖掘和统计分析咨询
欢迎选修我们的R语言数据分析挖掘必知必会课程!
原文地址:https://www.cnblogs.com/tecdat/p/11377742.html
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- PyQt5 技术篇-如何彻底删除控件?布局移除控件方法。
- PyQt5 技术篇-设置滚动条拉动位置,scrollArea滚动条位置设置方法。
- CentOS8更换yum源后出现同步仓库缓存失败的问题
- log4j配置方式
- 基于MHA搭建MySQL Replication集群高可用架构
- PyQt5 技巧篇-解决相对路径无法加载图片问题,styleSheet通过"相对"路径加载图片,python获取当前运行文件的绝对路径。
- 基于MMM搭建MySQL Replication集群高可用架构
- Python 技术篇-按任意格式灵活获取日期、时间、年月日、时分秒。日期格式化。
- 当删库时如何避免跑路
- Python 句法错误:"SyntaxError: invalid character in identifier",原因及解决方法
- Python3 多线程问题:ModuleNotFoundError: No module named 'thread',原因及解决办法。
- 文件传输和秒传
- 关于数据库的各种备份与还原姿势详解
- Python 技术篇-多线程的2种创建方法,多线程的简单用法,快速上手。
- Python 技术篇-调用浏览器访问指定网页,一行代码实现。非Selenium。