OpenAI、Anthropic罕见合作

siyushenqi.com • 2025 年 8 月 29 日上午11:56 • 行业动态 • 阅读 178

OpenAI 与 Anthropic 暂时向对方开放未发布的 AI 模型（GPT-5 除外），进行联合安全测试，意在发现各自内部评估盲点并示范行业协同。

摘要

幻觉差异——Claude Opus/Sonnet 4 拒绝回答率高达 70%，而 OpenAI 的 o3/o4-mini 更“敢说”却更易编造；双方认为最佳策略应介于两者之间。

谄媚风险——GPT-4.1 与 Claude Opus 4 出现极端迎合用户负面决策的案例；加州 16 岁少年自杀诉讼被视为潜在后果，凸显心理健康隐患。

数十亿美元数据中心与千万美元研究员薪酬的军备竞赛，令外界担忧安全标准被牺牲；双方高层均承认竞争仍将持续，但呼吁把安全合作常态化。

OpenAI（GPT-5 已改进谄媚性）与 Anthropic 希望扩大研究主题、测试未来模型，并鼓励更多实验室加入这一协作框架。

全球领先的两家AI初创企业OpenAI与Anthropic过去两个月罕见地展开了一项跨实验室的合作——在激烈竞争中暂时互相开放它们严密保护的人工智能模型，以进行联合安全测试。

此举旨在揭示各自公司内部评估中的盲点，并展示领先人工智能企业在未来如何在安全与协调方面开展合作。

两家公司于周三联合发布的安全研究报告，正值OpenAI与Anthropic等头部AI企业展开军备竞赛之际——数十亿美元的数据中心投资和千万美元级别的顶尖研究员薪酬，已成为业内的基础门槛。这导致不少行业专家颇为担忧地警告称，产品竞争的激烈程度，可能迫使企业在仓促开发更强大系统时降低安全标准。

据悉，为实现本次研究，OpenAI与Anthropic相互授予了特殊API权限，允许访问降低安全防护等级的AI模型版本——GPT-5模型因当时尚未发布未参与此项测试。

OpenAI联合创始人Wojciech Zaremba在接受采访时表示，鉴于AI技术正步入每天有数百万人使用的“具有重大影响”的发展阶段，此类合作正变得愈发重要。

“尽管行业投入了数十亿美元资金，并存在人才、用户和最佳产品的争夺战，但如何建立安全与合作标准，仍是整个行业面临的更广泛问题，”Zaremba表示。

当然，Zaremba预计，即便AI安全团队开始尝试合作，但行业竞争仍将保持激烈。

Anthropic安全研究员Nicholas Carlini则表示，希望未来能继续允许OpenAI安全研究人员，访问Anthropic旗下的Claude模型。

“我们希望在安全前沿领域尽可能扩大合作，让这类合作实现常态化，”Carlini表示。

▌研究发现了哪些问题？

此项研究中最引人注目的发现，涉及大模型的幻觉测试环节。

当无法确定正确答案时，Anthropic的Claude Opus 4和Sonnet 4模型会拒绝回答高达70%的问题，转而给出“我没有可靠信息”等回应；而OpenAI的o3和o4-mini模型拒绝回答问题的频率，则远低于前者，同时出现幻觉的概率却高得多——它们会在信息不足时仍试图作答。

Zaremba认为理想平衡点应介于两者之间：OpenAI模型应更频繁拒绝作答，而Anthropic模型则应尝试提供更多答案。

谄媚现象——AI模型为取悦用户而强化其负面行为的倾向，也正成为当前AI模型最紧迫的安全隐患之一。

Anthropic的研究报告指出，GPT-4.1和Claude Opus 4存在“极端”的谄媚案例——这些模型最初会抵制精神病态或躁狂行为，但随后却认可某些令人担忧的决策。相比之下，OpenAI和Anthropic的其他AI模型中，研究人员观察到的谄媚程度较低。

本周二，16岁美国加州少年亚当·雷恩的父母对OpenAI提起了诉讼，指控ChatGPT(具体为GPT-4o版本)向其子提供了助推其自杀的建议，而非阻止其自杀念头。该诉讼表明，这可能是AI聊天机器人谄媚导致悲剧后果的最新案例。

当被问及此事时，Zaremba表示：“难以想象这对家庭造成的痛苦。如果我们研发出能解决复杂博士级难题、创造新科学的AI，却同时导致人们因与之互动而出现心理健康问题，这将是令人悲哀的结局。这种反乌托邦未来绝非我所期待。”

OpenAI在博客中宣称，相较于GPT-4o，其GPT-5模型已显著改善了聊天机器人的谄媚性问题，并声称该模型更能应对心理健康紧急状况。

Zaremba与Carlini表示，未来希望Anthropic与OpenAI在安全测试领域深化合作，拓展研究主题并测试未来模型，同时期待其他AI实验室效仿这种协作模式。

本文源自「私域神器」，发布者：siyushenqi.com，转载请注明出处：https://www.firethy.com/65653.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

siyushenqi.com

11.9K 文章

0 评论

425 问题

16 粉丝

私域神器：海外私域营销拓客软件

1年5000万下载量，印度短剧正在崛起

上一篇 2025 年 8 月 29 日上午11:56

正式官宣！米哈游新作《崩坏：因缘精灵》杀入这个赛道了？

下一篇 2025 年 8 月 29 日上午11:56

决胜游戏出海：三种买量策略、两招发行利器

发行IP、数值、内容型产品，打法各有千秋

siyushenqi.com
2025 年 8 月 3 日 • 行业动态
122000
行业动态

离开投行，她教人做菜：要IPO了

身后知名投资机构云集。

siyushenqi.com
2025 年 8 月 13 日
93000
行业动态

3A游戏涨价至80美金被强烈抵制，为什么游戏制作成本远远超过了玩家的想象？

即便 5-30 人小团队做一款联网独立游戏，年成本轻松突破 100-500 万美元；2A 项目普遍 2,000-4,000 万美元，3A 则 1 亿美元起步，且未计营销。

siyushenqi.com
2025 年 8 月 26 日
126000
AI带货，卷不死真人主播

行业尚未成熟，风口还要追逐

siyushenqi.com
2025 年 8 月 14 日 • 行业动态
101000
行业动态

传沙特巨头收购沐瞳科技，字节游戏业务何去何从

Savvy Games Group正与字节跳动洽谈收购沐瞳游戏，谈判已持续两年，目前尚未达成最终协议，交易仍具不确定性。

siyushenqi.com
2025 年 11 月 27 日
16000
2023俄罗斯手游买量报告发布，中国厂商在动作、策略品类最能吸金

新鲜出炉的《2023俄罗斯手游市场买量洞察报告》，展现手游出海俄罗斯市场的最新动态。

siyushenqi.com
2025 年 8 月 3 日 • 行业动态
120000
行业动态

Temu首次进入前十！

在快速扩张、发展的背后，Temu也面临着诸多发展难题。

siyushenqi.com
2025 年 8 月 13 日
93000
行业动态

Facebook将购物车添加到WhatsApp 社区购物下单更便捷

WhatsApp周二表示，它将在其应用中增加一项新的购物功能

siyushenqi.com
2025 年 8 月 25 日
124000
行业动态

拼图游戏闯入电影世界，掀起东南亚娱乐新风暴

“影游融合”杀出黑马。

siyushenqi.com
2025 年 9 月 10 日
86000
行业动态

B站国风ARPG项目解散，由前《古剑奇谭三》项目经理带队

B站旗下的国风ARPG项目《代号UE》于2025年3月20日解散，裁员补偿流程正在进行中。

siyushenqi.com
2025 年 8 月 17 日
129000
行业动态

英伟达开源新大模型：训练数据减少40倍，算力节省1.8倍

全球AI领导者英伟达（Nvidia）开源了最新大模型Nemotron-4-Minitron-4B和Nemotron-4-Minitron-8B。

siyushenqi.com
2025 年 8 月 13 日
109000
行业动态

直播电商出海：中国经验与本土化挑战

海外电商平台对内容电商的支持力度加大，越来越多的用户开始接受短视频和直播带货，中国品牌和供应链出海也推动了这一趋势。

siyushenqi.com
2025 年 8 月 5 日
127000
亚马逊卖家被坑惨，一夜之间痛失40万！

卖家收到钓鱼邮件店铺被盗，损失惨重！

siyushenqi.com
2025 年 8 月 13 日 • 行业动态
108000
行业动态

3个月近15亿的曝光，这款放置RPG手游出海欧美的营销策略值得借鉴

随着全球用户对游戏的需求持续增强，面对未来广阔的海外手游市场，Yeahmobi将持续以专业高效的数字化营销服务，助力更多游戏出海厂商在买量中突围，实现可观增长。

siyushenqi.com
2025 年 8 月 18 日
109000
行业动态

独家丨微软云PK掉亚马逊云，撬走SHEIN 数十亿云订单

未来谁当全球云计算一哥？或许取决于中国企业

siyushenqi.com
2025 年 8 月 13 日
120000
私域神器每周精选 No.12｜多款手游寻海外发行 B站等寻优质出海项目投资

本期精选的合作类型涵盖多款游戏合作需求以及大厂投资、寻求人才等。接下来就一起看一看吧~

siyushenqi.com
2025 年 8 月 15 日 • 行业动态
100000
行业动态

短剧出海，让老外爱上“歪嘴龙王”

让洋人也爱上爽文爱上短剧，是件大有可为的生意。

siyushenqi.com
2025 年 8 月 18 日
110000
月入百万美金的天主教祈祷默想App Hallow的成功，是偶然，还是必然？（中）

月入百万美金的宗教类Hallow App，本文就来分析一下Hallow的产品特点。

siyushenqi.com
2025 年 8 月 19 日 • 行业动态
114000
行业动态

企鹅难挡短剧的富贵

短剧这块“肥肉”正在被腾讯盯上。

siyushenqi.com
2025 年 8 月 18 日
100000
行业动态

To C大模型，亏钱也得干丨祛魅AI

刚刚彻底开放的大模型赛道迎来了智能助手这一赛点，其成熟与爆发很可能是新一轮的行业洗牌潮。

siyushenqi.com
2025 年 8 月 13 日
101000
追平日本厂商、碾压韩国同行：中国游戏在日本真赢了么？

时至今日，出海早已成为一个老生常谈的话题。

siyushenqi.com
2025 年 8 月 26 日 • 行业动态
114000
像素风+放置+MMO？他们正在重新定义影响一代人的「神作」

从冒险岛，到「岛式轻冒险」。

siyushenqi.com
2025 年 8 月 19 日 • 行业动态
123000
1·12 解读预约丨全景解析手游出海抢跑2023稳获增长（内附超多豪礼）

扬帆出海年度巨制：2022中国手游出海白皮书重磅来袭！

siyushenqi.com
2025 年 8 月 3 日 • 行业动态
102000
小产品如何走上超神之路：这款舞蹈App单月从千名之外跃升至美iOS免费榜前20

近期，发现了一款很意思的app「Sway: Magic Dance」（以下简称Sway）。

siyushenqi.com
2025 年 8 月 25 日 • 行业动态
126000
Supercell用1770万美元投资了芬兰一家手游研发商

芬兰手游公司Metacore已从本国手游巨头，我们熟悉的《皇室战争》、《部落冲突》开发商Supercell那里获得了1770万美元的投资

siyushenqi.com
2025 年 8 月 26 日 • 行业动态
114000
北京这家低调的出海厂商，一年测了12款新品

《Solitaire Home Design》（以下简称SHD）的开发商贝塔科技（Betta Games），SHD上线3个月后，就从iOS畅销榜Top 200意外的位置，稳步爬升到了Top 80,这一年里，贝塔在海外先后上线测试了十几款新品，除了涵盖常见的模拟经营、卡牌等，还有一些意想之外的玩法组合。

siyushenqi.com
2025 年 8 月 24 日 • 行业动态
131000
Supercell“上海造”新游《皇室奇兵》海外开测，多国免费榜夺冠！

《皇室奇兵》与《部落传说》均由Supercell上海工作室研发，而在近日，《皇室奇兵》正式在海外开启Beta测试。

siyushenqi.com
2025 年 8 月 25 日 • 行业动态
131000
行业动态

OPPO收了一家AI创业企业！

波形智能已确认被OPPO收购，但未透露更多细节。

siyushenqi.com
2025 年 8 月 13 日
79000
行业动态

刘强东的手伸向了美团

气氛非常紧张。

siyushenqi.com
2025 年 8 月 5 日
100000
行业动态

Google Play在美国无条件开放第三方支付

Google Play宣布，自2025年10月29日起，不再强制要求美国市场的应用使用Google Play结算系统，允许开发者使用第三方支付方式。

siyushenqi.com
2025 年 10 月 30 日
74000