提高 RAG 系统的性能取决于高效处理各种非结构化数据源。
在本课程中,您将学习从多种不同来源表示各种非结构化数据(如文本、图像和表格)的技术,并实施这些技术来扩展您的 LLM RAG 管道,使其包括 Excel、Word、PowerPoint、PDF 和 EPUB 文件。如何为您的 LLM 应用程序开发预处理数据,重点是如何处理不同的文档类型。如何将各种文档提取并规范化为通用的 JSON 格式,并用元数据丰富其内容,以改善搜索结果。 3.文档图像分析技术,包括布局检测和视觉变换器,以提取和理解 PDF、图像和表格。 4.如何构建一个能够接收 PDF、PowerPoint 和 Markdown 文件等不同文档的 RAG 机器人。 将您在本课程中学到的技能应用到实际场景中,增强您的 RAG 应用程序并扩展其多功能性。