亚马逊 Bedrock 模型评估现已正式推出新闻博客

2026-01-27 12:20:14

Amazon Bedrock 模型评估功能正式上线

由 Jeff Barr 于 2024年4月23日发布在 Amazon Bedrock，主题是产品发布和新闻。永久连结评论分享

文章重点

Amazon Bedrock 的模型评估功能现已全新上线，帮助开发者选择最佳的基础模型以适应具体用例。提供自动及人工评估的选择，以提高模型评价的准确性。新增 API 功能可程式化管理模型评估作业，提升安全性及可用性。

Amazon Bedrock 的模型评估功能已在 AWS reInvent 2023 上亮相，现在正式可用。这项新功能能帮助您将生成型 AI 融入到应用程式中，让您能够选择最适合特定用例的基础模型。正如我的同事 Antje 在她的文章中所解释的 (评估、比较和选择最适合您用例的基础模型)：

在开发的所有阶段，模型评估都是至关重要的。作为开发者，您现在可以使用评估工具来构建生成型人工智慧 (AI) 应用。您可以从在游乐场环境中试验不同模型开始。为了加快迭代速度，可以新增模型的自动评估。然后，在准备初始发布或有限释出时，可以加入人工评估以确保质量。

亚马逊 Bedrock 模型评估现已正式推出新闻博客

在预览期间，我们收到了大量非常有帮助的反馈，并基于这些反馈完善了这项新功能的特性。在此快速回顾一下基本的步骤完整流程请参考 Antje 的文章：

基本步骤

创建模型评估任务选择评估方法自动或人工、基础模型、任务类型以及评估指标。您可以选择准确性、稳健性和毒性等用于自动评估的指标，或者选择任何想要的指标如友好度、风格及品牌声音的遵循度作为人工评估的指标。

运行模型评估任务启动任务并等待其完成。您可以在控制台中查看每个模型评估任务的状态，也可以通过新推出的 GetEvaluationJob API 获取状态。

检索和审查评估报告获取报告并审查模型在先前选定指标下的表现。再次建议参考 Antje 的文章以详细了解样本报告。

新增功能

随著今天的发布，让我们看看为了准备工作而新增的功能：

改进的任务管理现在您可以通过控制台或新的模型评估 API 停止正在运行的任务。

模型评估 API 现在可以通过编程创建和管理模型评估任务。提供以下功能：

CreateEvaluationJob 使用 API 请求中指定的参数创建并运行模型评估任务，包括 evaluationConfig 和 inferenceConfig。ListEvaluationJobs 列出模型评估任务，可以选择按创建时间、任务名称和状态进行过滤和排序。GetEvaluationJob 获取模型评估任务的属性，包括状态如 InProgress、Completed、Failed、Stopping 或 Stopped。StopEvaluationJob 停止一个进行中的任务。停止后，任务不能恢复，若需要重新运行则必须重新创建。

这个模型评估 API 是预览期间最受欢迎的需求之一，适合用于大规模评估，或作为应用开发或测试流程的一部分。

增强的安全性现在您可以使用自管 KMS 密钥来加密您的评估任务数据若未选择此选项，数据将由 AWS 拥有的密钥进行加密。

扩展的模型接入除了现有的文本模型来自 AI21 Labs、Amazon、Anthropic、Cohere 和 Meta，现在您还可以使用 Claude 21。

注意事项

以下是一些关于这项全新 Amazon Bedrock 功能的重要资讯：

定价您只需支付在模型评估过程中执行推断的费用，对于算法生成的分数不收取额外费用。如果使用人工评估并由您自己的团队进行，您需支付推断费用以及每完成一项任务的 021 这是由人工工作者提交的针对单一提示及其相关推断响应的评估。针对 AWS 管理的工作团队进行的评估，其定价基于数据集、任务类型和对您的评估重要的指标。更多信息请参见 Amazon Bedrock 定价页面。

可用区域模型评估目前在美国东部北维吉尼亚和美国西部俄勒冈地区可用。

探索更多生成型 AI 访问我们的新 GenAI 空间，了解更多今天我们发布的公告！

Jeff

cyberghost安卓版下载

关于 Jeff Barr

Jeff Barr 是 AWS 的首席传道者。他于 2004 年开始这个博客，自那以来几乎不断发文。

新闻中心

亚马逊 Bedrock 模型评估现已正式推出新闻博客

Amazon Bedrock 模型评估功能正式上线

文章重点

基本步骤

新增功能

注意事项

关于 Jeff Barr

导航

导航

联络cyberghost官网

新闻中心

亚马逊 Bedrock 模型评估现已正式推出 新闻博客

Amazon Bedrock 模型评估功能正式上线

文章重点

基本步骤

新增功能

注意事项

关于 Jeff Barr

导航

导航

联络cyberghost官网

亚马逊 Bedrock 模型评估现已正式推出新闻博客