AI 产研周报|2026-04-20
AI 产研周报|2026-04-20 时间范围: 2026-04-13 至 2026-04-20 一、行业与公司动向 1. Anthropic 发布 Claude Opus 4.7:SWE-bench Pro 64.3%、新增 xhigh 思考档位 What happened:4 月 16 日 Anthropic 上线 Claude Opus 4.7,Claude Code / Copilot / Bedrock / Vertex 同步可用。 Key delta:SWE-bench Pro 从 4.6 的 53.4% 跃升至 64.3%,SWE-bench Verified 87.6%,CursorBench 70%;多步 agent 工作流工具错误率降至约 1/3;新增 xhigh effort 档(介于 high 与 max 之间),Claude Code 已默认此档。单价不变(输入 $5/MTok、输出 $25/MTok),但换了新分词器,代码与 JSON/XML 类输入 token 数最多膨胀 35%,实际成本需按 workload 重测。 Why it matters:这是目前代码/agent 工作负载上最强的通用模型;但"价不变、token 变多"这条是隐藏成本,团队在把既有 prompt 迁过来前,需要重跑一遍成本回归(尤其是长上下文 diff/审查链路)。Max 档绝对分数更高但代价陡增,xhigh 更像性价比锚点。 Source:Anthropic 官方 (2026-04-16) · VentureBeat (2026-04-16) · TokenCost 成本分析 2. OpenAI Codex 大版本更新:桌面级 Computer Use、记忆与 90+ 插件 What happened:4 月 16–17 日 OpenAI 为 macOS 版 Codex 桌面端推送重大升级,引入后台 computer use、应用内浏览器、跨会话记忆、定时自动化、图像生成及 90+ 开发生命周期插件。 Key delta:Codex 能用自己的鼠标和键盘操作用户电脑上的各类应用,多个 agent 可在同一台 Mac 上并行而不抢占前台;记忆功能让它跨任务保留偏好、修正与上下文;定时任务允许 agent 自行唤醒并在数天/数周内推进长周期工作。欧盟和英国的 computer use 正在分批放量。 Why it matters:Codex 正在从"AI 编码器"向"桌面级研发 agent"迁移——这是 Cursor / Claude Code 同样在朝的方向。对企业 IT:多 agent 并行桌面操作会立刻放大权限边界、审计、数据泄露与越权执行的攻击面,评估接入前就要把沙箱、日志、密钥域做好。 Source:OpenAI 官方《Codex for (…
阅读完整文章