有兴趣增加您对大数据领域的了解吗? 本课程适合初涉数据科学并有兴趣了解大数据时代为何到来的人。 它适合那些希望熟悉大数据问题、应用和系统背后的术语和核心概念的人。 它适合那些希望开始思考大数据如何在其业务或职业生涯中发挥作用的人。 它介绍了最常见的框架之一 Hadoop,该框架使大数据分析变得更加容易和更易于访问,从而提高了数据改变我们世界的潜力!在本课程结束时,您将能够: * 描述大数据的格局,包括现实世界中大数据问题的示例,其中包括大数据的三个关键来源:人、组织和传感器。
* 解释大数据的 "V"(数量、速度、种类、真实性、价值和价值),以及为什么每种数据都会对数据收集、监控、存储、分析和报告产生影响。
* 确定哪些是大数据问题,哪些不是大数据问题,并能够将大数据问题重塑为数据科学问题。 * 解释用于可扩展大数据分析的架构组件和编程模型。 * 总结 Hadoop 栈核心组件的功能和价值,包括 YARN 资源和作业管理系统、HDFS 文件系统和 MapReduce 编程模型。 * 使用 Hadoop 安装和运行程序! 本课程面向数据科学新手。 无需编程经验,但需要具备安装应用程序和使用虚拟机的能力,以完成实践作业。
硬件要求:(A)四核处理器(建议支持 VT-x 或 AMD-V),64 位;(B)8 GB 内存;(C)20 GB 可用磁盘。如何查找硬件信息:(Windows):单击 "开始 "按钮打开 "系统",右键单击 "计算机",然后单击 "属性";(Mac):单击 Apple 菜单,然后单击 "关于此 Mac",打开 "概述"。您需要高速网络连接,因为您需要下载最大 4GB 的文件。
软件要求:本课程依赖于多个开源软件工具,包括 Apache Hadoop。所有所需软件均可免费下载和安装。软件要求包括Windows 7+、Mac OS X 10.10+、Ubuntu 14.04+ 或 CentOS 6+ VirtualBox 5+。