拥有 NoSQL 技能的大数据工程师和专业人员在数据管理行业非常受欢迎。本专业课程专为那些希望掌握使用大数据、Apache Spark 和 NoSQL 数据库的基本技能的人而设计。三门信息丰富的课程涵盖 MongoDB 和 Apache Cassandra 等流行的 NoSQL 数据库、广泛使用的 Apache Hadoop 大数据工具生态系统以及用于大规模数据处理的 Apache Spark 分析引擎。
首先,您将了解各类 NoSQL(不仅是 SQL)数据存储库的概况,然后亲手操作其中的几个存储库,包括 IBM Cloudant、MonogoDB 和 Cassandra。您将执行各种数据管理任务,如创建和复制数据库、插入、更新、删除、查询、索引、聚合和分片数据。接下来,您将获得有关大数据技术的基础知识,如 Hadoop、MapReduce、HDFS、Hive 和 HBase,然后是有关 Apache Spark、Spark Dataframes、Spark SQL、PySpark、Spark Application UI 和使用 Kubernetes 扩展 Spark 的更深入的工作知识。在最后一门课程中,您将学习如何使用 Spark Structured Streaming Spark ML - 用于执行提取、转换和加载处理(ETL)和机器学习任务。
本专业适合 NoSQL 和大数据领域的初学者,无论您是数据工程师、软件开发人员、IT 架构师、数据科学家还是 IT 经理。
应用的学习项目
本专业强调在实践中学习。因此,每门课程都包括动手实验室,以练习和应用您在讲座中学到的 NoSQL 和大数据技能。
在第一门课程中,您将亲手操作几个 NoSQL 数据库--MongoDB、Apache Cassandra 和 IBM Cloudant,以执行各种任务:创建数据库、添加文档、查询数据、使用 HTTP API、执行创建、读取、更新和删除 (CRUD) 操作、限制和排序记录、索引、聚合、复制、使用 CQL shell、键空间操作和其他表操作。
在下一课程中,您将使用 Docker 启动 Hadoop 集群并运行 Map Reduce 作业。您将 在 Python 内核上使用 Jupyter 笔记本探索如何使用 Spark。您还将学习使用 DataFrames、Spark SQL 和使用 Kubernetes 扩展作业的 Spark 技能。
在最后一门课程中,您将使用 Spark 进行 ETL 处理,并使用 IBM Watson 进行机器学习模型训练和部署。