在 Tidyverse 中管理数据

在 Tidyverse 中管理数据

本课程是用 R 语言学习数据科学的 Tidyverse 技能专项课程的一部分

位教师：Shannon Ellis, PhD

访问权限由 New York State Department of Labor 提供

2,349 人已注册

6个模块

深入了解一个主题并学习基础知识。

33 条评论

1 周完成

在 10 小时一周

灵活的计划

自行安排学习进度

6个模块

深入了解一个主题并学习基础知识。

33 条评论

1 周完成

在 10 小时一周

灵活的计划

自行安排学习进度

您将学到什么

应用 Tidyverse 函数将非整洁数据转换为整洁数据
进行基本的探索性数据分析
对文本数据进行分析

您将获得的技能

您将学习的工具

R Programming

要了解的详细信息

可分享的证书

添加到您的领英档案

作业

7 项作业

授课语言：英语（English）

了解顶级公司的员工如何掌握热门技能

了解关于 Coursera for Business 的更多信息

Petrobras, TATA, Danone, Capgemini, P&G 和 L'Oreal 的徽标

积累特定领域的专业知识

本课程是用 R 语言学习数据科学的 Tidyverse 技能专项课程专项课程的一部分

在注册此课程时，您还会同时注册此专项课程。

向行业专家学习新概念
获得对主题或工具的基础理解
通过实践项目培养工作相关技能
获得可共享的职业证书

该课程共有6个模块

为了进行有效的数据分析，数据永远不会以你需要的状态到达。数据需要重新塑造、重新排列和重新格式化，以便可视化或输入机器学习算法。本课程旨在解决数据整理问题，以便您能够控制数据并对其进行有效分析。数据处理的关键目标是将非整洁数据转换为整洁数据。本课程涵盖了在 R 中处理整洁和非整洁数据的许多关键细节，例如从宽格式转换为长格式、使用 dplyr 软件包处理表格、了解不同的 R 数据类型、使用正则表达式处理文本数据，以及进行基本的探索性数据分析。投入时间学习这些数据处理技术将使您的分析更高效、更可重复，也更容易为您的数据科学团队所理解。在本专业中，我们假定您熟悉 R 编程语言。如果您还不熟悉 R 语言，我们建议您先完成 R 语言编程，然后再回来完成本课程。

为了进行有效的数据分析，数据永远不会以你需要的状态到达。数据需要重新塑造、重新排列和重新格式化，以便可视化或输入机器学习算法。本模块将讨论如何处理数据，以便控制数据并对其进行有效分析。数据整理的关键目标是将不整齐的数据转化为整齐的数据。

涵盖的内容

19篇阅读材料2个作业

19篇阅读材料总计155分钟

关于本课程3分钟
整洁数据审查2分钟
重塑数据2分钟
广泛数据5分钟
长数据5分钟
重塑数据30分钟
数据整理0分钟
R 套件15分钟
管道操作员15分钟
过滤数据20分钟
重新排序15分钟
创建新列5分钟
分栏5分钟
合并列5分钟
清洁列名5分钟
跨数据帧组合数据5分钟
数据分组5分钟
总结数据3分钟
跨列操作10分钟

2个作业总计60分钟

重塑数据测验30分钟
数据整理小测验30分钟

在 R 中，分类数据是作为因子处理的。顾名思义，分类数据是有限的，因为它们有一定数量的可能取值。例如，一个日历年有 12 个月。在月份变量中，每个观测值只能取这 12 个值中的一个。因此，由于可能取值的数量有限，月份就是一个分类变量。在本课的其余部分中，分类数据将被称为因子，它们经常出现在数据中。学习如何有效地处理这类变量将大有裨益。

涵盖的内容

14篇阅读材料2个作业

14篇阅读材料总计75分钟

与因素打交道5分钟
因素审查5分钟
手动更改因子水平的标签： fct_releve()5分钟
保持因子水平的顺序： fct_inorder()5分钟
高级保理5分钟
按频率重新排列因子级： fct_infreq()5分钟
逆转订单水平： fct_rev()5分钟
通过另一个变量对因子水平重新排序： fct_reorder()5分钟
将多个级别合并为一个级别： fct_recode()5分钟
将数字级转换为因子： ifelse() + factor()5分钟
日期和时间基础知识5分钟
创建日期和日期时间对象10分钟
使用日期5分钟
时间跨度5分钟

2个作业总计60分钟

使用因素工作测验30分钟
使用日期工作测验30分钟

在数据科学项目中，处理文本数据越来越常见。通常需要对文本进行处理，以清理杂乱的数据集，并从文本输入中创建数值测量。此外，文本本身往往就是数据，本模块涵盖了从文本中提取信息的工具。

涵盖的内容

13篇阅读材料2个作业

13篇阅读材料总计135分钟

使用弦乐5分钟
字符串5分钟
弦乐基础知识15分钟
正则表达式3分钟
粘合剂15分钟
整洁的文本格式15分钟
情感分析15分钟
单词和文件频率30分钟
函数式编程5分钟
For 循环与函数2分钟
地图功能5分钟
多种载体15分钟
匿名功能5分钟

2个作业总计60分钟

使用字符串小测验30分钟
函数式编程测验30分钟

探索性分析的目的是检查或探索数据，发现以前不知道的关系。探索性分析探索不同测量指标之间的关系，但并不确认这种关系是因果关系，即一个变量导致另一个变量。你可能听说过 "相关并不意味着因果 "这句话，而探索性分析正是这句话的根源所在。在探索性分析中观察到两个变量之间的关系，并不意味着其中一个变量一定会导致另一个变量。