高级机器学习技术

本课程是多个项目的一部分。

位教师：Professionals from the Industry

访问权限由 Coursera Learning Team 提供

5个模块

深入了解一个主题并学习基础知识。

中级等级

推荐体验

3 周完成

在 10 小时一周

灵活的计划

自行安排学习进度

5个模块

深入了解一个主题并学习基础知识。

中级等级

推荐体验

3 周完成

在 10 小时一周

灵活的计划

自行安排学习进度

您将获得的技能

您将学习的工具

要了解的详细信息

可分享的证书

添加到您的领英档案

作业

22 项作业

授课语言：英语（English）

了解顶级公司的员工如何掌握热门技能

了解关于 Coursera for Business 的更多信息

Petrobras, TATA, Danone, Capgemini, P&G 和 L'Oreal 的徽标

积累特定领域的专业知识

此课程作为的一部分提供

在注册此课程时，您还需要选择一个特定的合作项目。

向行业专家学习新概念
获得对主题或工具的基础理解
通过实践项目培养工作相关技能
获得可共享的职业证书

该课程共有5个模块

欢迎阅读《高级机器学习技术》，在这里您将深入了解为现代人工智能应用提供动力的复杂方法。我们将探索高级机器学习的五个关键领域：组合模型的集合方法、处理复杂数据的降维技术、用于文本分析的自然语言处理、用于决策系统的强化学习，以及用于优化的自动机器学习。您将亲自动手使用行业标准工具，包括 Scikit-learn、XGBoost、NLTK、PyTorch 和 MLflow，学习如何在实际场景中实施和优化高级算法。

课程结束后，您将能够 -应用 PCA、t-SNE 和 UMAP 等降维技术进行数据可视化和特征提取 -使用现代 NLP 技术和转换器模型处理和分析文本数据 -设计和训练用于自主决策的强化学习代理 -使用 AutoML 工具和实验 Tracks 优化机器学习工作流通过实际练习和综合顶点项目，您将掌握在专业工作中应对复杂机器学习挑战所需的高级技能。

在本模块中，您将学习建立集合学习技术，包括套袋、提升和堆叠。您将学习如何结合多个模型来提高预测性能，并使用 Scikit-learn、XGBoost 和 LightGBM 等流行库来实现这些模型。通过动手实践，您将使用交叉验证来评估集合模型，并学会优化其超参数。

涵盖的内容

16个视频8篇阅读材料5个作业4个非评分实验室

16个视频总计48分钟

欢迎访问高级机器学习技术2分钟
为什么单决策树会过度拟合？视觉入门3分钟
套袋法如何稳定预测并减少方差2分钟
随机森林分类虹膜数据集演练4分钟
Random Forest for Regression：预测房价3分钟
学习能力薄弱者为何会失败--以及 Boosting 试图解决的问题2分钟
助推器如何从错误中学习--一次一个模型3分钟
实现用于增强分类的 XGBoost 和 LightGBM3分钟
什么是堆叠？简单直观的解释3分钟
如何训练堆叠模型（不泄露数据）4分钟
上手操作：在 Scikit-learn 中为堆叠设置基础模型5分钟
实践：用 Python 训练和评估堆叠集合3分钟
Cross-validation 基础知识：它如何工作、为何重要，以及为什么单一数据分割会误导你3分钟
交叉验证如何让模型比较更可靠3分钟
使用 cross_val_score 进行交叉验证：比较集合模型2分钟
利用 GridSearchCV 调整 Hyperparameter：优化 XGBoost3分钟

8篇阅读材料总计74分钟

了解套袋法和随机森林8分钟
了解随机森林中的超参数10分钟
Boosting 算法详解：从 AdaBoost 到 XGBoost 和 LightGBM10分钟
调整提升模型：关键超参数解析10分钟
何时以及如何有效使用堆叠功能8分钟
堆叠实践：了解堆叠分类器结构8分钟
实施交叉验证10分钟
集合模型中的交叉验证与 Bias-Variance 权衡10分钟

5个作业总计90分钟

掌握合奏学习30分钟
知识检查：Bagging 和随机森林15分钟
知识检查：提升及其应用15分钟
知识检查：堆叠分类器实际操作15分钟
知识检查：集合模型评估15分钟

4个非评分实验室总计240分钟

应用袋法：利用随机森林预测客户流失率60分钟
使用提升模型预测心脏病60分钟
构建和评估贷款违约数据堆叠分类器60分钟
通过 Cross-validation 比较集合模型60分钟

本 Modulation 将帮助你掌握降维技术，有效处理高维数据。您将学习应用主成分分析（PCA）在保留关键特征的同时降低维度；使用 t Distribution Stochastic Neighbor Embedding（t-SNE）在二维/三维空间中可视化高维数据，以进行聚类和模式识别；以及利用其速度和结构保留特性，实施统一表层逼近和投影（UMAP）以高效降维。

涵盖的内容

8个视频7篇阅读材料4个作业3个非评分实验室

8个视频总计16分钟

为什么缩小尺寸能让模型运行得更好？2分钟
在 Python-ASSE 中逐步实现 PCA2分钟
PCA 如何降低维度并直观显示模式2分钟
为什么 PCA 并不总是足够的？进入 t-SNE2分钟
手把手教你使用 t-SNE：二维复杂模式可视化2分钟
UMAP 为何能改变复杂数据 Visualization 和 Data Modeling 的游戏规则？2分钟
用 Python 中的 UMAP 可视化数字2分钟
使用 UMAP Transformer Feature 进行分类2分钟

7篇阅读材料总计52分钟

为什么要使用 PCA：降维与 Variance8分钟
PCA 的工作原理：特征向量、投影和解释方差8分钟
什么是 t-SNE，它与 PCA 有何不同？6分钟
如何有效使用 t-SNE：参数、最佳实践和陷阱6分钟
高维数据 Visualization：为什么 PCA 和 t-SNE 并不总是足够的？6分钟
解密 UMAP：它是什么--它不是什么8分钟
有效使用 UMAP：参数、用例和注意事项10分钟

4个作业总计75分钟

降维精通30分钟
知识检查：主成分分析 (PCA)15分钟
知识检查：t-SNE 概念与用例15分钟
知识检查：UMAP 基本知识15分钟

3个非评分实验室总计180分钟

利用 PCA 降低维度：从 64 个特征到 2 个特征60分钟
利用 t-SNE 可视化手写数字集群60分钟
探索用于可视化和模型制作的 UMAP60分钟

在本 Module 中，您将重点学习从基础文本预处理到高级 Sentiment 分析的自然语言处理技术。您将学习如何使用自然语言工具包（NLTK）和 spaCy 对文本数据进行 tokenization、停顿词去除和词干化/词素化等预处理。通过使用各种技术（如 Bag-of-Words、TF-IDF 和词嵌入）实现文本分类，您将获得 NLP 任务的实践经验。您还将使用 Hugging Face Transformer 和 Scikit-learn 训练情感分析模型。

涵盖的内容

13个视频6篇阅读材料5个作业4个非评分实验室

13个视频总计27分钟

了解自然语言处理：为什么它在今天如此重要2分钟
逐步清理原始文本--从噪音到 Tokenization2分钟
词干化与词母化--有什么区别？2分钟
从文本到字袋--你的第一个文本 Vectorizer1分钟
超越计数--TF-IDF 在行动2分钟
用抱脸变换器提取 token 嵌入2分钟
句子级嵌入和相似性评分3分钟
Tokenization 的工作原理：词、子词和转换器2分钟
使用 spaCy 获取词向量和 token 相似性2分钟
用拥抱脸变换器创建句子嵌入2分钟
情感数据的 TF-IDF Vectorization2分钟
培训和评估情感分类器1分钟
利用拥抱式人脸变换器微调用于情感分析的 BERT3分钟

6篇阅读材料总计47分钟

为什么预处理文本是建立更好模型的第一步？8分钟
词根化、词matization 和预处理工具8分钟
从单词到计数--了解 BoW 和 TF-IDF8分钟
从向量到意义--Embedding 及其使用时机6分钟
Tokenization 和 Embedding：现代 NLP Model 如何理解语言10分钟
文本分类：从 Feature 到 Prediction7分钟

5个作业总计90分钟

精通 NLP - 从文本到分类30分钟
知识检查：文本预处理技术15分钟
知识检查：词语表述15分钟
知识检查：标记化与嵌入15分钟
知识检查：情感分类工作流程15分钟

4个非评分实验室总计240分钟

清理您的第一个 NLP 数据集：新闻标题版60分钟
在实践中比较稀疏和密集文本表示法60分钟
比较静态嵌入和上下文嵌入对句子相似性的影响60分钟
经典情感模型与 transformer 情感模型：正面比较60分钟

强化学习描述：在本模块中，您将探索强化学习（RL）的基本原理，包括马尔可夫决策过程（MDP）和基于奖励的学习。您将了解 RL 系统的关键组成部分，并实施基于策略和基于价值的学习技术。通过实际案例和动手实施，您将发现 RL 如何应用于机器人、游戏和金融等现实世界场景中。

涵盖的内容

7个视频5篇阅读材料4个作业3个非评分实验室

7个视频总计17分钟

强化学习的与众不同之处2分钟
强化学习入门：代理、行动和奖励4分钟
用 Python 模拟强化学习 Loop2分钟
了解 Q 学习和贝尔曼更新2分钟
在 GridWorld 中实施 Q-Learning2分钟
建立政策网络和抽样行动2分钟
使用 REINFORCE 算法进行训练3分钟

5篇阅读材料总计40分钟

强化学习的关键概念8分钟
马尔可夫决策过程和 RL 术语8分钟
价值与政策：培训 RL 代理的两种方法10分钟
RL 如何为机器人、游戏和金融决策提供动力6分钟
真实世界 RL 的挑战与前沿8分钟

4个作业总计75分钟

强化学习精通30分钟
知识检查：RL 基础知识15分钟
知识检查：Q-Learning 与 REINFORCE15分钟
知识检查：真实世界中的 RL15分钟

3个非评分实验室总计180分钟

在 GridWorld 中使用代理模拟第一个 RL 环境60分钟
培训首批 Q-Learning 和 Reinforcement Learning 代理商60分钟
利用 RL 概念模拟现实世界中的决策任务60分钟

本模块侧重于自动化机器学习技术和模型优化。您将学习使用 Auto-sklearn 和 GridSearchCV 自动选择模型和调整超参数，并使用 MLflow 优化模型，以实现实验跟踪和可重复性。您还将探索贝叶斯优化技术，以提高模型的准确性。最后，本模块将以一个综合了整个课程中多种技术的综合毕业设计作为结束。