Anthropic 的全新 Claude 4 AI 模型可以进行多步推理 : 关于Claude AI 4.0 你所知道的一切
2025年5月27日
截至 2025 年 5 月 22 日至 23 日,Anthropic 已正式发布 Claude 4 的两个版本——Claude Opus 4和Claude Sonnet 4,为生产用户带来混合推理、扩展思维和前沿编码能力。Claude
Opus 4 被定位为 Claude 系列中最智能、性能最强的模型,在编码基准测试中表现出色(SWE-bench 上准确率为 72.5%),并能持续进行数小时的代理工作流,拥有 200 K 令牌上下文窗口,并能够在后台运行“Claude 代码”以执行自主的长时间运行任务 。
Claude Sonnet 4 是 Sonnet 3.7 的后继产品,它为大容量应用程序提供了性能和成本的平衡,在代码审查、错误修复、客户支持代理和 AI 助手方面表现出色,并具有混合推理模式和用于扩展思考的摘要 。
- Claude AI 成品纯手工账号自助购买平台:点击进入
Anthropic 表示,在今天推出的两款机型中,Opus 4 性能更强大,能够在工作流程的多个步骤中保持“专注”。与此同时,据 Anthropic 称,Sonnet 4(旨在作为 Sonnet 3.7 的“简易替代品”)在编码和数学方面均有所改进,并且能够更精确地执行指令。
Anthropic 声称,Claude 4 家族参与“奖励黑客攻击”的可能性也低于 Sonnet 3.7 家族。奖励黑客攻击,也称为规范游戏,是指模型走捷径和钻漏洞来完成任务的行为。
需要明确的是,这些改进并未在所有基准测试中都产生出世界上最好的模型。例如,虽然 Opus 4 在用于评估模型编码能力的 SWE-bench Verified 测试中击败了谷歌的Gemini 2.5 Pro以及 OpenAI 的o3和GPT-4.1,但它在多模态评估 MMMU 或 GPQA Diamond(一组博士级别的生物、物理和化学相关问题)中却无法超越 o3。
发布公告
2025年5月22日,Anthropic宣布Claude Opus 4和Claude Sonnet 4正式发布,成为Claude 4系列的正式产品,标志着其从设想走向量产阶段 。2025年5月23日的正式发布,将扩展至AWS Bedrock和谷歌Vertex AI平台,并获得了包括亚马逊和谷歌在内的主要投资者的支持 。
关键创新
- 混合推理模式:在近乎即时的响应和扩展思考之间切换,以进行带有总结的深入、逐步的推理。
- 使用工具进行扩展思考(测试版):内部推理和外部工具(如网络搜索和 API)之间的无缝切换。
- 并行工具使用和内存:两种型号都支持并发工具调用和改进的内存管理;Opus 4 还可以在获得文件访问权限时创建和访问内存文件 )。
更新的功能亮点
根据之前的预测,实际的功能集包括:
上下文窗口
- Opus 4 和 Sonnet 4 均为200 K 个标记,与 Sonnet 3.5 的记录相匹配,但应用于混合推理 。
多式联运和代理能力
- Agentic 搜索和工作流程:Opus 4 可以自主地进行数小时的长期研究和多步骤营销或工程活动 。
- 编码自主性:Sonnet 4 在代码审查和错误修复方面表现出色,而 Opus 4 可以通过 Claude Code 运行后台编码任务,使用 32 K 输出令牌 处理数千个步骤。
安全与校准
Anthropic 发布了系统卡,详细介绍了广泛的安全评估:
- Opus 4在 AI 安全级别 3 下发布,Sonnet 4在级别 2 下发布,每个版本都经过了针对误用场景、对抗性漏洞和第三方评估 的严格测试。
与先前模型的比较分析
方面 | 克劳德 3.5 十四行诗 | 克劳德3号作品 | 克劳德 4 十四行诗 4 | 克劳德 4 作品 4 |
---|---|---|---|---|
上下文窗口 | 20万个代币 | 20万个代币 | 20万个代币 | 20万个代币 |
编码性能 | 高的 | 世界最佳(SWE-bench 72.5%) | 前沿性能,实用成本 | 世界上最好的编码模型,后台任务 |
代理推理 | 有限的 | 先进的 | 与 3.5 相比增强 | 最先进的多小时工作流程 |
定价(每百万美元/支出) | 3 / 15(十四行诗 3.5) | 15 / 75(作品 3) | 3 / 15 | 15 / 75 (作品 4) |
可用性平台 | 人类学 API | API,克劳德Pro+ | API、免费+付费计划 | API、Claude Pro/Max/Team/Enterprise、AWS、Vertex AI |
供货及价格
- Claude Opus 4:每百万输入令牌 15 美元,每百万输出令牌 75 美元;使用快速缓存可节省高达 90%,使用批处理可节省 50% 。
- Claude Sonnet 4:维持 Sonnet 定价为 3 美元/百万输入代币和 15 美元/百万输出代币 。
- 平台:
- Anthropic API 和 Claude.ai(免费访问 Sonnet 4,付费访问 Opus 4)
- Amazon Bedrock、Google Vertex AI、GitHub Copilot、Databricks
未来影响
Claude 4 系列的发布巩固了 Anthropic 在企业 AI 领域的地位,并进一步推动了其在云提供商和开发者平台上的普及。凭借 Opus 4 的前沿智能和 Sonnet 4 的经济高效性能,企业可以部署 AI 代理来执行复杂、长期运行的任务以及海量操作。随着工具集成和代理推理的成熟,我们可以期待 AI 系统承担起专业化的角色——协调工作流程、进行深入研究以及自动化端到端流程——从而将 AI 从临时助手转变为自主协作者。