AI战局反转!GPT-5.2强势登场,BCR深度解析为何OpenAI突然加速
摘要:红色警报再度拉响——OpenAI 这次是真的着急了。距离 GPT-5.1 发布仅 30 天,GPT-5.2 系列便火速上线,而且明显把“能干活”放在了第一优先级。虽然版本号只从 5.1 升到 5.2,看似小幅更新,但在实际应用中却是跨级飞跃:做表格、做PPT、写代码、读长文档、工具调用、处理多步骤项目等能力都有显著提升。视觉方面也全面增强,GPT-5.2 能更精确地识别主板组件,甚至轻松构建网页端
红色警报再度拉响——OpenAI 这次是真的着急了。距离 GPT-5.1 发布仅 30 天,GPT-5.2 系列便火速上线,而且明显把“能干活”放在了第一优先级。
虽然版本号只从 5.1 升到 5.2,看似小幅更新,但在实际应用中却是跨级飞跃:做表格、做PPT、写代码、读长文档、工具调用、处理多步骤项目等能力都有显著提升。视觉方面也全面增强,GPT-5.2 能更精确地识别主板组件,甚至轻松构建网页端波浪模拟器。遇到航班延误、转机错过、医疗座位等复杂行程问题,它也能从改签到赔偿一条龙处理。
ARC-AGI 最新测试更是炸裂:GPT-5.2 Pro(X-High)得分上到 90.5%,成本却从去年的 4500 美元降到 11.64 美元,一年效率暴涨近 390 倍,成功压过谷歌 Gemini 3 Pro。
这一天同时也是 OpenAI 十周年,一个节点式的象征:GPT-5.2 把“真正能承担价值任务的AI”又向前推了一大步。
在高经济价值任务(GDPval)中,GPT-5.2 Thinking 对比专家级人类,胜率达到 71%,速度却是人类的 11 倍,成本不足 1%。在投行建模测试中(如三表模型、LBO模型),得分较 5.1 提升 9.3%,几乎达到专业咨询公司的交付质量。
代码能力也创历史新高:SWE-bench Verified 达到 80%,在更难的 SWE-Bench Pro 上拿下 55.6%。不少早期开发者反馈,GPT-5.2 在前端、复杂UI、尤其带3D组件的任务表现惊艳。
长文档处理同样提升巨大,在 256k 上下文下几乎能满分找出“大海捞针”任务中的全部信息,是同类模型中首个接近 100% 准确率的。
科学能力也上了新台阶。GPQA 研究生级评测中,GPT-5.2 Pro 拿到 93.2%;数学评测 FrontierMath 创下 40.3% 的新纪录。甚至在统计学习理论的一个开放问题中给出了可通过同行评审的证明结果。
幻觉率从 8.8% 降到 6.2%,虽仍需人类复核,但稳定性正在逼近可商用级别。
值得注意的是,GPT-5.2 的核心研发团队中,出现了大量在 2024–2025 年加入 OpenAI 的新面孔,且多来自数学与理论研究背景。每当外界怀疑 OpenAI 进展放缓时,新的技术突破与人才总能带来意想不到的反击。
免责声明:
本文观点仅代表作者个人观点,不构成本平台的投资建议,本平台不对文章信息准确性、完整性和及时性作出任何保证,亦不对因使用或信赖文章信息引发的任何损失承担责任
