玩了一天Opus 4.5：我看Claude是真“成精”了

siyushenqi.com • 2小时前 • 行业动态 • 阅读 2

Claude Opus 4.5 在航空客服基准测试中，面对“基本经济舱不可改签”的死板政策，主动提出“先升舱再改签”的合规变通方案，展现出在规则框架内寻找可行路径的“人类专家级”策略思维。

摘要

传统基准将“拒绝”视为标准答案，Opus 4.5 的“曲线救国”被判定为失败，却恰恰揭示了 AI 评价体系需从“执行指令”升级为“解决真实问题”，引发对“奖励黑客”风险的同步警惕。

20 项前端实测显示，Opus 4.5 与 Sonnet 4.5 代码质量相当，但前者持续追加数据持久化、排行榜、动画、删除功能等“用户真正需要”的细节，把 MVP 做成可上线的产品。

Sonnet 4.5 像高效执行者，任务定义清晰时性价比最高；Opus 4.5 像主动思考的协作者，先追问“为什么”，再给出超预期且合规的完整方案，实现从“代码生成器”到“智能合作伙伴”的跨越。

当基础算法差距缩小时，开发者选型关键不再是少 bug，而是能否提供“钻空子”式的额外价值——会升舱的客服、带存档的记账本、能长高的分形树——谁不想要一个“成精”的 AI 同事。

2025 年11月24日，Anthropic 发布了其最新旗舰模型 Claude Opus 4.5。这款模型在多项基准测试中刷新了纪录，但枯燥的分数掩盖了它最迷人、也最难以量化的特质：

它开始像一个经验丰富的人类专家那样，在规则框架内寻找创造性的解决方案。

Claude“成精了”。

错误的正确答案

在 τ-bench 航空客服基准测试中，发生了一个极具代表性的案例。场景看似简单：一位焦虑的客户购买了基本经济舱机票，因故需要将航班推迟两天。

摆在 AI 面前的是一道死板的航空公司政策墙：基本经济舱不允许修改航班。

大多数 AI 模型（包括之前的版本）的反应如同只会照本宣科的客服："抱歉，您的基本经济舱机票不支持修改。"这是测试预期的"正确"答案，也是符合逻辑的死胡同。

但 Opus 4.5 做了一件意想不到的事。它像一位老练的金牌客服，仔细审查了整套政策，发现了一个被忽略的“后门”：虽然基本经济舱不能改签，但所有舱位（包括基本经济舱）都允许升舱。

于是，Opus 4.5 给出了一个“曲线救国”的方案：

先将客户的基本经济舱升级到允许改签的高级舱位；
在升级后的舱位下进行航班修改。

两步操作，每一步都严丝合缝地符合规定，却完美解决了用户的难题。

有趣的是，基准测试程序将此标记为"失败"，因为它没有给出预设的拒绝回复。但正是这种“任务失败”，标志着 AI 智能的一次重大飞跃：评估 AI 的标准正从"能否精准执行指令"，转变为"能否在复杂约束中找到可行路径"。

当然，Anthropic 对此保持警惕。这种能力是一把双刃剑，在某些极端情况下，这种绕过约束的巧妙路径可能演变成"奖励黑客（Reward Hacking）"模型为了达成目标而以非预期的方式"玩弄"规则。但这无疑证明了 Opus 4.5 具备了更高级的推理能力。

20 项前端实测：代码之外的较量

为了验证这种能力在编程实战中的表现，我们对 Claude Opus 4.5 和 Sonnet 4.5 进行了同样的 20 项前端项目测试，涵盖小游戏、特效和交互组件。

结果印证了我们的猜想：在纯粹的代码生成能力上，两者难分伯仲；但在“交付物”的完整度上，Opus 4.5 展现出了惊人的「产品思维」。

我们先来比较一下差别相对较大的项目。

首先是冒泡排序算法动画和贪吃蛇游戏。这两个项目自 AI 编程诞生以来就是测试中的常客，Opus4.5 和 Sonnet4.5 都完成的基本功能，然而，很明显 Opus4.5 比 Sonnet4.5 考虑的更多更完善，在项目中增加了变速、打乱顺序等。同样在贪吃蛇游戏中，Opus4.5 加入了历史最高成绩，给蛇添加了小眼睛，底部有游戏提示。

同样的事情还发生在记账本项目中。这两份代码 Opus4.5 和 Sonnet4.5 均出色地完成了题目要求，构建了包含输入、列表展示及可视化图表的单文件 HTML 应用。

在实用性上，Opus 4.5 凭借数据存储和删除功能胜出，是一个真正可用的工具；而 Sonnet 4.5 则胜在代码逻辑极其精简。

Opus 4.5 最核心的优势在于实现了数据持久化，利用 localStorage 确保刷新页面后数据不会丢失。此外，它还提供了删除功能，允许用户移除单条记录。相比之下，Sonnet 4.5 版本更像是一个教学用的 MVP。它的数据仅存储在内存数组中，刷新即丢失，且不支持删除操作，输入验证仅依靠简单的 alert 弹窗。

在视觉呈现上，Sonnet 4.5 采用了简洁的居中卡片式设计，配合全屏渐变背景，使用水平进度条来展示分类统计，视觉风格聚焦且适合移动端阅读。 Opus 4.5 则采用了更现代的 Dashboard 布局。其图表采用垂直柱状图，并配有独立的颜色图例，在交互上包含悬停效果、图标等，更加丰富细腻。

类似的项目还有很多，像分形树生成器中，Opus4.5 增加了动画选项，可以模仿树生长的样子，还添加了 Oak Tree、Willow、Pine 等多种预设。而 Sonnet 4.5 只是完成了任务。

如果说上面的案例有什么共同点，那就是 Opus 4.5 在代码之外，多了一层对“意图”的深度思考。

Sonnet 4.5 像一位优秀的资深程序员。你告诉它做什么，它就做什么，代码干净、高效、不甚至不会多写一行冗余的注释。如果任务定义明确，它的性价比极高。

Opus 4.5 则更像一位懂技术的产品经理。它不仅听到了你的指令，还思考了你为什么要完成这个任务。

用户要做记账本？那肯定需要保存数据，否则记了有什么用？
用户要做贪吃蛇？那肯定想挑战高分，得有个纪录榜。
用户陷入了规则死胡同？那我得帮他想想有没有合规的变通办法。

成精了。

当编程任务涉及到模型极限时，模型反而不重要了。

就像下面的 SWE—bench 测试分数，从视觉上看，Opus4.5 比 Sonnet4.5 高了 1/3，分数上高了 4 个百分点“而已”。

在处理最底层的算法逻辑时，两者的差别微乎其微。但在构建一个完整的、面向人的应用时，Opus 4.5 所展现出的这种“钻空子”的冗余计算，恰恰是 AI 从“代码生成器”进化为“智能合作伙伴”的关键一步，也是不少 AI IDE 正在追求的 Agent 主导编程。

对于开发者而言，选择哪一个模型，不再取决于谁的代码 bug 更少，而取决于你需要的是一个听话的执行者，还是一个会主动思考的协作者。而谁不想要一个成精了的AI呢。

本文源自「私域神器」，发布者：siyushenqi.com，转载请注明出处：https://www.firethy.com/69213.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

siyushenqi.com

11.8K 文章

0 评论

425 问题

16 粉丝

私域神器：海外私域营销拓客软件

优必选砸20个亿做并购

上一篇 2小时前

腾讯是怎么理解二游玩家的？

下一篇 2小时前

怀旧题材吸量、复合玩法释放创意，Ohayoo又做了一个登顶iOS免费榜的休闲爆款

“让短视频平台的优质内容成为休闲游戏创意来源”，已经渐渐成为了Ohayoo操刀新品发行的核心策略之一。

siyushenqi.com
2025 年 8 月 24 日 • 行业动态
124000
行业动态

私域神器每周合作精选No.122｜三消游戏找海外联运发行；仙侠手游发越南市场；中东短剧平台寻投资合作

本期精选的合作类型涵盖三消游戏找海外联运发行；寻仙侠MMORPG手游发越南市场；中东短剧平台寻求平台性质投资合作等。接下来就一起看看吧~

siyushenqi.com
2025 年 8 月 17 日
99000
韩国手游市场Q1达15亿美元，MAU/收入TOP5是谁？

今年Q1韩国手游内购交易额达到了1.66万亿韩元，约合15亿美元、即97.15亿人民币左右，创下了季度收入的新纪录。

siyushenqi.com
2025 年 8 月 25 日 • 行业动态
134000
年售1.2亿美元的手机壳，曾因流量太大站点险些崩了

独立站流量高达670w

siyushenqi.com
2025 年 8 月 12 日 • 行业动态
97000
行业动态

王慧文能让AI成为美团的又一横吗

美团在大模型研发上保持低调，与其他公司相比，美团并没有大肆宣传其大模型产品。美团的通慧大模型侧重于复杂的认知推理，而光年之外推出的「光象(Elefante)」大模型则计划对外开放，但至今未有新消息。

siyushenqi.com
2025 年 8 月 13 日
101000
行业动态

IP出海，必遭魔改？

如何合理评价IP出海的成败？中国IP走向全球的过程中还会遇到哪些挑战？

siyushenqi.com
2025 年 8 月 18 日
99000
行业动态

私域神器每周合作精选No.112｜休闲小游戏、《三国策》战略版等多款游戏寻海外发行

本期精选的合作类型涵盖休闲小游戏寻海外发行；《三国策》战略版:2024最新手游版，寻海外发行等。接下来就一起看看吧~

siyushenqi.com
2025 年 8 月 18 日
87000
行业动态

继三消短剧后“二合Merge+短剧”游戏也来了，外围装修换成真人演绎，又颠又上头

来学习下买量副玩法做进短剧里什么样。

siyushenqi.com
2025 年 9 月 6 日
144000
《剑网3》制作人郭炜炜：终止台服合作！一家中国游戏公司CEO的底线

这事儿没得谈，维护国家统一是底线。 —— 西山居CEO郭炜炜

siyushenqi.com
2025 年 8 月 26 日 • 行业动态
120000
行业动态

意大利之后是德国？整个欧洲都有兴趣“封禁”ChatGPT？

意大利对ChatGPT的禁令，掀起了一轮针对OpenAI的监管风暴，德国监管机构已率先跟进。

siyushenqi.com
2025 年 8 月 14 日
81000
行业动态

短剧如何在美国“重写”娱乐规则？

2023年好莱坞停摆为中国短剧出海腾出空间，美国成全球短剧收入“金矿”，贡献近47%内购收入，用户付费能力达其他市场6倍。

siyushenqi.com
2025 年 11 月 3 日
48000
行业动态

深度剖析 | 千亿美金的日本电商市场，如何攻克占比40%的银发一族？

日本电商市场体量巨大，是亚洲第二、全世界第四大电商市场，2021年电商销售额达1120亿美元。Facebook发布了《制胜日本电商市场白皮书》，帮助卖家深入了解潜力巨大的日本市场。

siyushenqi.com
2025 年 8 月 13 日
90000
行业动态

《Z世代，游戏增长新势力》——钛动科技--合伙人-唐彬Eric

《Z世代，游戏增长新势力》演讲视频完整回放

siyushenqi.com
2025 年 8 月 3 日
90000
发布100天霸榜100天，这款3A手游凭什么将3N拉下韩国王座?

连续100天，iOS和Google Play Store游戏畅销榜第一的产品应该有怎样的特点？这种无数游戏公司梦寐以求的成就，在前不久被Kakao Games的新游《奥丁：神叛》（以下简称《奥丁》）达成了。

siyushenqi.com
2025 年 8 月 25 日 • 行业动态
116000
行业动态

MultiMetaverse Inc. CEO 许怡然确认担任 PAGC 2025丨第五届全球产品与增长展会 PAGC丨开幕峰会圆桌嘉宾

MultiMetaverse Inc. CEO 许怡然确认担任 PAGC 2025丨第五届全球产品与增长展会 PAGC丨开幕峰会圆桌嘉宾

siyushenqi.com
2025 年 8 月 17 日
116000
行业动态

一周要闻NO.103丨英伟达市值登顶全球第一；5月出海厂商收入TOP30内藏乾坤；Vision Pro国行将售，买美版的人更多了

一起看看这周有哪些出海圈值得关注的大事记吧！

siyushenqi.com
2025 年 8 月 14 日
77000
如今的韩国Google Play畅销榜TOP10，已经不如上半年那样好进了

今年3月初，游戏陀螺对成功出海韩国市场的中国手游进行统计时，Google Play畅销榜TOP100中，国产手游占比约三分之一

siyushenqi.com
2025 年 8 月 26 日 • 行业动态
137000
行业动态

咪蒙布局的短剧行业正在成为视频平台新增量？

短剧爆款欠缺、仍需持续拓展用户群体是整个行业都面临的难题。

siyushenqi.com
2025 年 8 月 19 日
99000
不靠买量和迭代 5岁老游“料理模拟器”又火了

一款“别出心裁”的游戏，一家“特立独行”的工作室。

siyushenqi.com
2025 年 8 月 19 日 • 行业动态
109000
行业动态

亚马逊temu无货源采购：自养号系统的风险控制与养号攻略

做亚马逊temu跨境无货源，现在最常遇到的难题是什么？找代拍总担心资源不稳定，平台风控规则越来越严，账号关联导致封号断货……这些实际问题，让越来越多卖家调整采购策略——不再依赖第三方，转而自己养一批长期稳定采购的账号。这些账号通过模拟真实用户行为，逐步积累平台信任，不仅能保障日常下单，还会被平台标记为“可信买家”，成了采购链路里关键的“数字身份”。一、自养…

siyushenqi.com
2025 年 11 月 17 日
20000
创梦天地2021年财报：营收26.37亿，4款游戏将与腾讯合作研运

公司自研游戏收入已经超过总营收的50%。

siyushenqi.com
2025 年 8 月 24 日 • 行业动态
131000
行业动态

阿拉伯世界蓬勃发展的男装时尚产业

阿拉伯世界的男装市场翻开了新的一页。

siyushenqi.com
2025 年 8 月 13 日
105000
行业动态

新品半年在美国吸金1亿，这家SLG大厂决定继续加码

题材大战正在迈向新阶段

siyushenqi.com
2025 年 8 月 19 日
120000
Jollychic到底怎么了？

曾经被视为中东独角兽的执御，它到底怎么了？

siyushenqi.com
2025 年 8 月 13 日 • 行业动态
92000
行业动态

一周要闻NO.174丨腾讯搬出米老鼠怒怼索尼；谷歌与Epic达成和解；亚马逊头部品牌流向速卖通；昆仑万维全新SkyReels上线

一起看看这周有哪些出海圈值得关注的大事记吧！

siyushenqi.com
2025 年 11 月 10 日
37000
行业动态

Figma敲钟背后：90后辍学少年，如何站上AI资本塔尖？

IPO“资本盛宴”背后，CEO迪伦·菲尔德仍保持极度冷静。提醒团队“股价只是快照”，长期价值取决于产品而非市值。

siyushenqi.com
2025 年 8 月 14 日
122000
行业动态

外贸客户砍价谈判话术模板看这一篇就够了

对应超级爱砍价的客户：他们的口头禅： I am not happy with your price. It's very expensive. Can you do something about the price? Please I want big discount. I will order many many. 处理技巧：第一轮: Ok b…

siyushenqi.com
2025 年 7 月 31 日
122000
2023越南猫年热卖年货抢先看，花式营销卖家赚翻天！

2023都在过兔年，而越南却在过猫年！

siyushenqi.com
2025 年 8 月 13 日 • 行业动态
100000
行业动态

TikTok Shop抢滩日本，一场跨境电商的“反内卷”突围战

TikTok Shop在日本上线，依托短视频和直播带货模式，覆盖化妆品、服装、家电等多个品类，标志着其在东南亚、欧美之后，进一步拓展高潜力市场，强化全球电商布局。

siyushenqi.com
2025 年 8 月 5 日
122000
行业动态

AI独角兽估值狂飙：20亿美元背后的泡沫警钟

成立仅两年的AI招聘网站Mercor完成1亿美元B轮融资，估值达到20亿美元（约合人民币145亿元），是五个月前估值的8倍。Mercor由三位00后创始人创立，他们退学创业，利用AI大模型简化招聘流程，迅速成长为百亿级别独角兽。

siyushenqi.com
2025 年 8 月 13 日
109000