新闻中心

  • 首页 新闻中心 亚马逊 Bedrock 模型评估现已正式推出 新闻博客

亚马逊 Bedrock 模型评估现已正式推出 新闻博客

2026-01-27 12:20:14

Amazon Bedrock 模型评估功能正式上线

由 Jeff Barr 于 2024年4月23日发布在 Amazon Bedrock,主题是 产品发布 和 新闻。永久连结 评论 分享

文章重点

Amazon Bedrock 的模型评估功能现已全新上线,帮助开发者选择最佳的基础模型以适应具体用例。提供自动及人工评估的选择,以提高模型评价的准确性。新增 API 功能可程式化管理模型评估作业,提升安全性及可用性。

Amazon Bedrock 的模型评估功能已在 AWS reInvent 2023 上亮相,现在正式可用。这项新功能能帮助您将生成型 AI 融入到应用程式中,让您能够选择最适合特定用例的基础模型。正如我的同事 Antje 在她的文章中所解释的 (评估、比较和选择最适合您用例的基础模型):

在开发的所有阶段,模型评估都是至关重要的。作为开发者,您现在可以使用评估工具来构建生成型人工智慧 (AI) 应用。您可以从在游乐场环境中试验不同模型开始。为了加快迭代速度,可以新增模型的自动评估。然后,在准备初始发布或有限释出时,可以加入人工评估以确保质量。

亚马逊 Bedrock 模型评估现已正式推出 新闻博客

在预览期间,我们收到了大量非常有帮助的反馈,并基于这些反馈完善了这项新功能的特性。在此快速回顾一下基本的步骤完整流程请参考 Antje 的 文章:

基本步骤

创建模型评估任务 选择评估方法自动或人工、基础模型、任务类型以及评估指标。您可以选择准确性、稳健性和毒性等用于自动评估的指标,或者选择任何想要的指标如友好度、风格及品牌声音的遵循度作为人工评估的指标。

运行模型评估任务 启动任务并等待其完成。您可以在控制台中查看每个模型评估任务的状态,也可以通过新推出的 GetEvaluationJob API 获取状态。

检索和审查评估报告 获取报告并审查模型在先前选定指标下的表现。再次建议参考 Antje 的文章以详细了解样本报告。

新增功能

随著今天的发布,让我们看看为了准备工作而新增的功能:

改进的任务管理 现在您可以通过控制台或新的模型评估 API 停止正在运行的任务。

模型评估 API 现在可以通过编程创建和管理模型评估任务。提供以下功能:

CreateEvaluationJob 使用 API 请求中指定的参数创建并运行模型评估任务,包括 evaluationConfig 和 inferenceConfig。ListEvaluationJobs 列出模型评估任务,可以选择按创建时间、任务名称和状态进行过滤和排序。GetEvaluationJob 获取模型评估任务的属性,包括状态如 InProgress、Completed、Failed、Stopping 或 Stopped。StopEvaluationJob 停止一个进行中的任务。停止后,任务不能恢复,若需要重新运行则必须重新创建。

这个模型评估 API 是预览期间最受欢迎的需求之一,适合用于大规模评估,或作为应用开发或测试流程的一部分。

增强的安全性 现在您可以使用 自管 KMS 密钥 来加密您的评估任务数据若未选择此选项,数据将由 AWS 拥有的密钥进行加密。

扩展的模型接入 除了现有的文本模型来自 AI21 Labs、Amazon、Anthropic、Cohere 和 Meta,现在您还可以使用 Claude 21。

注意事项

以下是一些关于这项全新 Amazon Bedrock 功能的重要资讯:

定价 您只需支付在模型评估过程中执行推断的费用,对于算法生成的分数不收取额外费用。如果使用人工评估并由您自己的团队进行,您需支付推断费用以及每完成一项任务的 021 这是由人工工作者提交的针对单一提示及其相关推断响应的评估。针对 AWS 管理的工作团队进行的评估,其定价基于数据集、任务类型和对您的评估重要的指标。更多信息请参见 Amazon Bedrock 定价 页面。

可用区域 模型评估目前在美国东部北维吉尼亚和美国西部俄勒冈地区可用。

探索更多生成型 AI 访问我们的新 GenAI 空间,了解更多今天我们发布的公告!

Jeff

cyberghost安卓版下载

关于 Jeff Barr

Jeff Barr 是 AWS 的首席传道者。他于 2004 年开始这个博客,自那以来几乎不断发文。