使用 LangChain 和 PySpark 在 Amazon SageMaker Studio 及
用 LangChain 和 PySpark 在 Amazon SageMaker Studio 和 Amazon EMR Serverless 大规模处理文档
重点摘要
在当前数据驱动的时代,利用大数据技术,将显著促进企业的发展,并在生成 AI应用中发挥重要作用。借助新推出的Amazon EMR Serverless 和Amazon SageMaker Studio集成,用户可以简化基础设施管理,提高数据处理效率,大幅降低成本,实现更好的可伸缩性和性能。本文将指导如何利用该集成,建立数据处理和机器学习工作流。
蓝鲸加速器加速随着企业对大数据处理能力需求的增加,能够高效地处理和分析海量数据已成为公司的核心竞争力。尤其是对于生成式人工智能AI应用,数据的处理和分析能力至关重要。然而,管理大数据工作负载所需的复杂基础设施一直是一个挑战,往往需要专业的知识和技能。这就是Amazon EMR Serverless在Amazon SageMaker Studio中的新应用集成的用武之地。
EMR Serverless与SageMaker Studio集成的优势
优势说明简化基础设施管理通过抽象化配置Spark集群的复杂性,EMR Serverless集成使用户可以快速启动大数据工作负载所需的计算资源,而无需管理基础设施的配置。与 SageMaker 无缝集成作为 SageMaker 平台的内置功能,EMR Serverless 集成提供统一直观的使用体验,使数据科学家和工程师在熟悉的环境中进行更高效的开发工作。成本优化服务无状态的特性意味着用户只需为所使用的计算资源付费,避免了维护持久集群带来的高昂费用,尤其适用于使用模式不规律的工作负载。可伸缩性和性能EMR Serverless 集成能够根据工作负载需求自动扩展计算资源,保持持续的处理能力,降低瓶颈风险。减少运营开销通过管理底层基础设施,EMR Serverless 集成节省了团队的人力资源,并使其能够专注于数据驱动的应用开发。解决方案概述
SageMaker Studio 是一个完全集成的开发环境,支持数据科学家和开发者在一个基于网络的界面中构建、训练、调试、部署和监控模型。SageMaker Studio 运行在 AWS 管理的虚拟私有云 (VPC) 中,用户可以通过 VPC 连接到所需的 AWS 服务。以下图标示了该解决方案:
身份验证机制
在 SageMaker Studio 集成 EMR Serverless 的过程中,可以使用运行时角色来管理 AWS 资源的访问权限。通过为 SageMaker 配置适当的 IAM 角色,可以确保各工作负载在遵循最小权限原则的情况下,获得所需的访问权限。
EMR Serverless 集群的费用分配
在 SageMaker Studio 中创建的 EMR Serverless 集群将自动标记系统默认标签,用于简化 Amazon EMR 资源的费用分配。以下是标签示例:
bash

domain tag
sagemakerdomainarn arnawssagemakerdomain/
user profile tag
sagemakeruserprofilearn arnawssagemakeruserprofile//
了解更多企业级费用分配的信息,请参考 使用 Amazon SageMaker 进行企业级费用分配的设置。
使用 PySpark 构建 RAG 文档处理引擎
RAG (RetrievalAugmented Generation) 框架通常包含两个主要组件:
离线文档嵌入生成 从各种来源提取数据文本、图像、表格等,并使用大型语言嵌入模型生成嵌入。在线上下文文本生成 用户查询与向量数据库进行搜索,结合用户查询与检索到的文档,以发送给大型语言模型进行文本生成。以下步骤演示了如何在交互式 SageMaker Studio JupyterLab 笔记本中使用 PySpark 在 EMR Serverless 上高效并行化 PDF 文档处理的过程。
部署嵌入模型
使用Hugging Face All MiniLM L6 v2嵌入模型,快速部署该模型。
在 SageMaker Studio 中,选择 “JumpStart”。搜索并选择 All MiniLM L6 v2。在模型卡片上,选择“部署”。交互式构建离线文档嵌入生成器
现在,通过以下步骤构建文档处理引擎:
创建 SageMaker Studio JupyterLab 开发环境。根据需要选择合适的实例类型和 EBS 存储卷。接着,克隆 GitHub 上的示例代码,并在 SageMaker Studio 中使用相关笔记本。
在“数据”导航面板下,选择“EMR 集群”。在“EMR Serverless 应用程序”标签下选择“创建”以创建集群。选择集群,并选择“附加到新笔记本”。确保选择 SparkMagic PySpark 内核,以运行 PySpark 工作负载。
结论
EMR Serverless 与 SageMaker Studio 的集成为大数据处理和机器学习工作流简化和提升带来了显著进步。这一强大的结合,使组织能够毫无负担地处理 PB 级数据,工程师和数据科学家可以专注于从数据中驱动洞察和创新。
在如今不断变化的数据决策环境下,采用 EMR Serverless 和 SageMaker Studio 等工具将是保持竞争优势的关键。欢迎您参考 SageMaker 快速设置指南,今天就尝试设置 SageMaker Studio 吧!
AWS Pi Day 2024:利用您的数据驱动生成式 AI 新闻博客
AWS Pi Day 2024:利用数据推动生成式人工智能关键要点AWS Pi Day是一个专注于数据与生成式人工智能的活动,展示了Amazon S3在数据管理中的重要性。数据质量至关重要,影响生成式...
在 AWS Glue Studio 中使用可视化 ETL 任务在 Amazon RDS 数据库之间复
在AWS Glue Studio中使用可视化ETL作业复制和掩盖Amazon RDS数据库中的个人身份信息(PII)关键要点本文介绍如何使用AWS Glue Studio在Amazon RDS数据库之...