AI 产研周报｜2026-04-20

AI 产研周报｜2026-04-20 时间范围： 2026-04-13 至 2026-04-20 一、行业与公司动向 1. Anthropic 发布 Claude Opus 4.7：SWE-bench Pro 64.3%、新增 xhigh 思考档位 What happened：4 月 16 日 Anthropic 上线 Claude Opus 4.7，Claude Code / Copilot / Bedrock / Vertex 同步可用。 Key delta：SWE-bench Pro 从 4.6 的 53.4% 跃升至 64.3%，SWE-bench Verified 87.6%，CursorBench 70%；多步 agent 工作流工具错误率降至约 1/3；新增 xhigh effort 档（介于 high 与 max 之间），Claude Code 已默认此档。单价不变（输入 $5/MTok、输出 $25/MTok），但换了新分词器，代码与 JSON/XML 类输入 token 数最多膨胀 35%，实际成本需按 workload 重测。 Why it matters：这是目前代码/agent 工作负载上最强的通用模型；但"价不变、token 变多"这条是隐藏成本，团队在把既有 prompt 迁过来前，需要重跑一遍成本回归（尤其是长上下文 diff/审查链路）。Max 档绝对分数更高但代价陡增，xhigh 更像性价比锚点。 Source：Anthropic 官方 (2026-04-16) · VentureBeat (2026-04-16) · TokenCost 成本分析 2. OpenAI Codex 大版本更新：桌面级 Computer Use、记忆与 90+ 插件 What happened：4 月 16–17 日 OpenAI 为 macOS 版 Codex 桌面端推送重大升级，引入后台 computer use、应用内浏览器、跨会话记忆、定时自动化、图像生成及 90+ 开发生命周期插件。 Key delta：Codex 能用自己的鼠标和键盘操作用户电脑上的各类应用，多个 agent 可在同一台 Mac 上并行而不抢占前台；记忆功能让它跨任务保留偏好、修正与上下文；定时任务允许 agent 自行唤醒并在数天/数周内推进长周期工作。欧盟和英国的 computer use 正在分批放量。 Why it matters：Codex 正在从"AI 编码器"向"桌面级研发 agent"迁移——这是 Cursor / Claude Code 同样在朝的方向。对企业 IT：多 agent 并行桌面操作会立刻放大权限边界、审计、数据泄露与越权执行的攻击面，评估接入前就要把沙箱、日志、密钥域做好。 Source：OpenAI 官方《Codex for (…

阅读完整文章