国产大模型首发中文逻辑推理，「天工大模型4.0」o1版来了

siyushenqi.com • 2025 年 8 月 13 日下午9:29 • 海外营销 • 阅读 78

Skywork o1 模型在多步推理任务上表现出色，能够处理比之前模型更复杂的科学、代码和数学问题。它通过模拟人类的思考、计划和反思过程，提高了回答的质量和深度。

摘要

Skywork o1 包含三个版本：Skywork o1 Open（开源版本，参数为8B），Skywork o1 Lite（具有快速推理能力的版本），和 Skywork o1 Preview（完整版推理模型，提供更多样化和深度的思考过程）。

昆仑万维不仅发布了 Skywork o1 Open，还开源了两个针对推理任务的 Process-Reward-Model（PRM），分别是 Skywork o1 Open-PRM-1.5B 和 Skywork o1 Open-PRM-7B，这些模型能够对模型回答中的每个步骤进行打分。

Skywork o1 的进步得益于昆仑万维自研的三阶段训练方案，包括推理反思能力训练、推理能力强化学习，以及基于 Q* 算法的推理 planning。Q* 算法是一种新的线上推理算法，能够显著提升 LLM 的推理能力，并降低计算资源需求。

Skywork o1 Lite 和 Preview 版本的实际测试，包括解决脑筋急转弯、常识推理、数学问题、逻辑推理和伦理决策等问题，展示了模型在这些领域的推理和决策能力。

没想到，技术发展得竟然这么快。最近，人们已经开始畅想 AI 时代后的生活了。

上周末，摩根大通 CEO 杰米・戴蒙（Jamie Dimon）表示，由于人工智能技术，未来几代人每周可以只工作三天半，活到一百岁。

一些研究认为，生成式 AI 等技术可以让目前占用人们工作时间 60-70% 的任务实现自动化。这些变革需要的技术从何而来？那一定是突破性 AI，有人整理出了各位 AI 领域大佬对通用人工智能（AGI）出现时间的预测。DeepMind 的哈萨比斯就认为，我们距离 AGI 的出现还差两到三个重大技术创新。

像 OpenAI CEO 山姆・奥特曼，甚至认为 AGI 明年就会出现。想来想去，如此自信的原因可能在于最近人们让大模型学会了「推理」的方法。

就在 9 月份，OpenAI 正式公开前所未有的复杂推理大模型 o1，这是一个重大突破，新模型既具有通用的能力，也可以解决比此前的科学、代码和数学模型能做到的更难问题。实验结果表明，在绝大多数推理任务中，o1 的表现明显优于 GPT-4o。

o1 在具有挑战性的推理基准上比 GPT-4o 有了很大的改进。

OpenAI 为大模型的能力开启了新方向：「能不能像人一样思考与推理」已经成为了评判它们能力的重要指标。厂商发布的新模型要是不带点思维链，恐怕都不好意思拿出手了。

不过直到如今，o1 的正式版仍然迟迟没有推出。AI 社区尤其是国内大模型公司正在向 o1 的霸主地位发起冲击，并开始在一些权威评测中取得领先。

今天，国内首款具备中文逻辑推理能力的 o1 模型来了，它便是由昆仑万维推出的「天工大模型 4.0」 o1 版（英文名：Skywork o1）。这也是近一个月来，该公司在大模型及相关应用上的第三次大动作，此前天工 AI 高级搜索、实时语音对话 AI 助手 Skyo 先后亮相。

自即日起，Skywork o1 将开启内测，想要体验的小伙伴赶紧申请起来了。

申请地址：www.tiangong.cn

三款模型并举

角逐推理新战场

此次，Skywork o1 包含了以下三款模型，既有回馈开源社区的开放版本，也有能力更强的专用版本。

其中，开源版本的 Skywork o1 Open 参数为 8B，在各项数学和代码指标上实现显著提升，并将 Llama-3.1-8B 的性能拉到同生态位 SOTA，超越了 Qwen-2.5-7B instruct。
同时，Skywork o1 Open 还解锁了 GPT-4o 等更大量级模型无法完成的数学推理任务（如 24 点计算）。这也为推理模型在轻量级设备上的部署提供了可能性。

另外，昆仑万维还将开源两个针对推理任务的 Process-Reward-Model（PRM），分别是 Skywork o1 Open-PRM-1.5B 和 Skywork o1 Open-PRM-7B。此前开源的 Skywork-Reward-Model 仅能对整个模型回答打分，而 Skywork o1 Open-PRM 可以细化到对模型回答中的每个步骤进行打分。

相较于开源社区现有的 PRM，Skywork o1 Open-PRM-1.5B 能达到 8B 的模型效果，例如RLHFlow 的 Llama3.1-8B-PRM-Deepseek-Data、OpenR 的 Math-psa-7B。Skywork o1 Open-PRM-7B 更强，能同时在大部分基准上接近甚至超越 10 倍量级的 Qwen2.5-Math-RM-72B。

据介绍，Skywork o1 Open-PRM 还是第一款适配代码类任务的开源 PRM。下表为以 Skywork-o1-Open-8B 作为基础模型，使用不同 PRM 在数学和代码评测集上的评估结果。

注：除 Skywork-o1-Open-PRM 外，其他开源 PRM 均未针对代码类任务上进行专门优化，故不进行代码任务的相关对比。

详细技术报告也将在不久后发布。目前模型和相关介绍已在 Huggingface 开源。

开源地址：https://tinyurl.com/skywork-o1

Skywork o1 Lite 具备了完整的思考能力，达到了更快的推理与思考速度，在中文逻辑和推理、数学等问题上表现尤为突出。Skywork o1 Preview 是此次完整版推理模型，搭配自研的线上推理算法，对比 Lite 版本可以呈现更多样和深度的思考过程，做到了更完善和更高质量的推理。

也许你会问，当前复现 o1 模型的工作都在推理层面下足了功夫，Skywork o1 又有什么与众不同呢？

昆仑万维表示，该系列模型在模型输出上内生了思考、计划和反思等能力，在慢思考中一步步地进行推理、反思与验证，解锁了「深思熟虑」等典型的进阶版复杂人类思考能力，确保了回答的质量和深度。

当然，Skywork o1 的成色如何，我们还是得看实战效果。

一手实测

这次 Skywork o1 彻底拿捏住了推理

机器之心提前拿到了测试资格，对 Skywork o1 系列模型，尤其是 Lite 和 Preview 版本的推理能力进行了全方位的考察。下图为 Skywork o1 Lite 的界面展示。

我们先让 Skywork o1 Lite 自报家门，可以看到，模型并没有直接给出答案，而是将包括问题定位、自我能力剖析等在内的完整思考过程直观展现给用户，并且会显示思考时间，这也是如今推理模型的显著特点。

接下来正式进入测试环节，我们搜罗了各种类型的推理问题，看究竟能不能绕晕 Skywork o1。

比大小、数「r」问题，不再翻车

此前，大模型在面对一些看起来非常简单的比大小、数数问题时往往翻车。现在这些问题再也难不倒 Skywork o1 Lite 了。

在比较 13.8 与 13.11 孰大孰小时，Skywork o1 Lite 给出了完整的思维链路，找出解题的关键在于小数位大小。同时模型还自我反思，二次检查自己得出的结论，并提醒容易答错的点。

同样地，在正确回答「Strawberry 中有多少个 “r”？」时，Skywork o1 Lite 也是思考、验证、确认的完整链路。

在回答具有扰乱项的问题时，Skywork o1 Lite 很快厘清思路，不受干扰因素的影响。

玩转脑筋急转弯，不陷入语言陷阱

大模型有时会被中文语境下的脑筋急转弯问题搞糊涂，导致给出错误的答案。这次 Skywork o1 Lite 可以轻松拿下这类问题。

两对父子只钓到三条鱼，却每人都分到了一条，Skywork o1 Lite 能弄明白是怎么回事。

掌握各种常识，告别智障属性

大模型能不能在常识推理层面接近人类水平，是提高其自身可信度、增强决策能力、拓展多领域应用的重要指标之一。Skywork o1 Lite 和 Preview 在这点上都表现不错。

比如长度（英寸、厘米、码）与质量单位（公斤）的区分。

比如盐水冰块为什么比纯水冰块更容易融化。

再比如一个人站在完全静止的船上，当向后跳跃时船向前运动。Skywork o1 Lite 解释清楚了现象背后的物理知识。

化身做题小能手，高考题也不在话下

数学推理是解决复杂任务的基础能力，具备强大数学推理能力的大模型有助于用户高效地解决跨学科复杂任务。

在求解序列问题「2, 6, 12, 20, 30... 这个序列的第 10 项是多少？」时，Skywork o1 Lite 观察数字排列特点、找到规律、验证规律，最终给出了正确答案。

在求解组合（从 10 人中选出 3 人组成一队，共多少种选择）问题时，Skywork o1 Preview 在全链路思考过后，答案正确。

再来一道动态规划（硬币面值 1、3、5，最少几枚硬币凑出 11？）问题，Skywork o1 Lite 给出了最优解。

我们接下来给 Skywork o1 Lite 上上难度，考它两道高考数学题，题目出自 2024 年高考全国甲卷数学（文）。

首先是一道概率题（甲、乙、丙、丁四人排成一列，丙不在排头，且甲或乙在排尾的概率是多少），Skywork o1 Lite 很快给出了正确答案。

然后是函数题，Skywork o1 Lite 解题思路、答案一气呵成。

心思缜密，逻辑思辨能力很强

大模型的逻辑推理是实现更强通用人工智能的核心能力之一，而 Skywork o1 Lite 在解答这类问题时颇有心得。比如经典的说谎问题，Skywork o1 Lite 从逻辑自洽的角度分辨出谁说实话、谁在说谎。

对于悖论问题，Skywork o1 Lite 也没有被蒙蔽头脑。

面对道德困境，做到不偏不倚

伦理决策很大程度上是保证人工智能安全发展、遵守社会道德规范、增强用户信任与接受度的重要因素，大模型更要谨言慎行。

关于「救老婆还是救老妈」这个千古难题，Skywork o1 Lite 没有给出绝对答案，而是权衡利弊，并给出了合理的建议。

还有「救多救少」的两难取舍问题，Skywork o1 Preview 也没有轻易下结论，而是提出了一些更深层次的思考。

弱智吧考验，也能 hold 住

弱智吧问题常常用来考验大模型的智力水平，Skywork o1 Lite 能够轻松应答这类问题，比如高考满分 750、考上 985 的区别。

再比如「午餐肉能不能在晚上吃」，Skywork o1 Lite 显然没有受到食物名称的误导。

代码问题也能搞定

Skywork o1 Lite 能够解决一些代码问题，比如 LeetCode 上的孤岛个数（Number of islands）问题。

题目为「给定一个 2 维网格图，其中 “1”(陆地) 和 “0”(水)，计算岛屿的数量。岛屿被水包围，通过水平或垂直连接相邻的陆地形成，你可以假设网格的四边都被水包围着。」

到这里，我们可以下一波结论了：

一方面，以往大模型经常翻车的「小」问题，在推理能力加持下的 Skywork o1 眼里都是小菜一碟。另一方面，通过完整的思考与规划、自我反思以及自我验证链路，Skywork o1 在复杂问题场景同样具备缜密的思辨能力，可以更加准确、高效地输出结果。

如此一来，相较以往强得多的推理能力将激发 Skywork o1 在更多样垂类任务和领域的应用潜力，尤其是容易翻车的逻辑推理和复杂的科学、数学任务。同时上线天工之后，也势必将进一步优化在创意写作等高质量内容生成与深度搜索领域的任务效果。

国产 o1 模型

自研技术驱动

此前，我们已经见证过昆仑万维提出的一系列生成式 AI 垂直类应用，包括但不限于搜索、音乐、游戏、社交、AI 短剧等方向。在这背后，在大模型基础技术的研发上，昆仑万维早有布局。

自 2020 年起，昆仑万维开始持续加码 AI 大模型投入，ChatGPT 刚上线一个月后，该公司就发布了自己的 AIGC 模型系列。在很多垂直领域，昆仑万维都已经推出了应用，包括全球首款 AI 流媒体音乐平台 Melodio、AI 音乐创作平台 Mureka、AI 短剧平台 SkyReels 等等。

在基础技术层面上，昆仑万维目前已经构建起「算力基础设施 — 大模型算法 —AI 应用」的全产业链布局，其中「天工」系列大模型是其核心。

去年 4 月，昆仑万维发布自主研发的「天工 1.0」大模型。到今年 4 月，天工大模型升级到了 3.0 版本，采用 4 千亿级参数 MoE 混合专家模型，并同步选择开源。如今，天工 4.0 版本又基于智能涌现的方法实现了逻辑推理任务上的能力提升。

在技术上，Skywork o1 在逻辑推理任务上性能大幅提升，要得益于天工三阶段自研的训练方案，包括如下：

一是推理反思能力训练。Skywork o1 通过自研的多智能体体系构建了高质量的分步思考、反思和验证数据，并辅以高质量、多样性的长思考数据对基座模型进行继续预训练和监督微调。

二是推理能力强化学习。Skywork o1 团队研发了最新的适配分步推理强化的 Skywork o1 Process Reward Model（PRM），不仅可以有效捕捉到复杂推理任务中间步骤和思考步骤对最终答案的影响，而且结合自研分步推理强化算法进一步加强了模型推理和思考能力。

三是推理 planning。基于天工自研的 Q * 线上推理算法配合模型在线思考，并寻找最佳推理路径。这也是全球首次将 Q * 算法实现和公开，在 MATH 等数据集上可以显著提升 LLM 的推理能力，并降低计算资源的需求。

在 MATH 数据集上，Q * 帮助 DeepSeek-Math-7b 提升至 55.4% 的准确率，超越了 Gemini Ultra。

Q * 算法论文地址：https://arxiv.org/abs/2406.14283

可以看出，昆仑万维的技术已经达到了业界的领先水平，在竞争激烈的生成式 AI 领域，逐渐站稳了一席之地。

相对于目前生成式 AI 应用的百花齐放，在基础技术层面上，研究已经开始走进「深水区」。只有那些经过长期积累的公司，才能构建起改变我们生活的新一代应用。

期待昆仑万维在未来给我们带来更多、更强大的技术。

本文源自「私域神器」，发布者：siyushenqi.com，转载请注明出处：https://www.firethy.com/32720.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

siyushenqi.com

11.6K 文章

0 评论

420 问题

16 粉丝

私域神器：海外私域营销拓客软件

这届AI顶流都在小红书？

上一篇 2025 年 8 月 13 日下午9:29

Jellycat风靡，AI宠物崛起，人类用什么抵御孤独？

下一篇 2025 年 8 月 13 日下午9:29

海外营销

国内首款C端AI电商应用产品落地，物圆TreLoop重塑二手交易体验

人工智能（AI）二手电商应用物圆TreLoop于近日正式开放内测。作为国内首款面向C端用户的AI电商产品，物圆TreLoop致力于为年轻用户群体打造一个集多品类、多功能于一体的生活闲置物品分享与交易平台。

siyushenqi.com
2025 年 8 月 13 日
92000
海外营销

快速了解 ASA Suggested 广告的九个要点！

在美国区 App Store 的搜索页热搜词下方的 Suggested 位置出现了带有 Ad 标识的广告位，但 ASA 后台还无法创建该位置的广告。

siyushenqi.com
2025 年 8 月 25 日
104000
海外营销

Habby的执念：王炸新品拿下9国榜首 “死磕”肉鸽终成正果

至今为止已经有了无数的以僵尸题材为背景的游戏出现在市面上，究竟如何将尸潮的压迫感、虐杀僵尸的爽快感保留，同时还能把僵尸题材玩出新花样？Habby给出了答案。

siyushenqi.com
2025 年 8 月 24 日
104000
海外营销

重磅报告 | 面对全球1160亿美元的“大蛋糕”，游戏出海路在何方？

新机遇·新挑战：2022 游戏应用营销现状报告

siyushenqi.com
2025 年 8 月 25 日
110000
海外营销

电商直播带货，如何找到东南亚“李佳琦”？

如果我们把目光转向东南亚，网红直播带货模式是否也能掏空千万东南亚人的钱包?

siyushenqi.com
2025 年 8 月 13 日
114000
海外营销

为心跳估值

2024年，乙女游戏（以恋爱为主要题材的女性向游戏）迎来爆发，头部游戏如《恋与深空》《光与夜之恋》等总流水超过百亿元。其中，《恋与深空》全球注册用户数超5000万，多次登顶iOS畅销总榜。乙女游戏通过情感消费满足女性玩家对亲密关系的渴望，成为最赚钱的游戏类目之一。

siyushenqi.com
2025 年 8 月 17 日
116000
海外营销

一觉醒来，国乙第一次世界大战开打了？

集体发癫。

siyushenqi.com
2025 年 8 月 18 日
104000
海外营销

4年融资超3亿，让多家知名机构超额追投的AI厨房究竟做了什么？

你在餐饮店连锁店吃的美食可能是AI做的！

siyushenqi.com
2025 年 8 月 13 日
71000
海外营销

当一家头部MCN决定做AIGC产品

一家擅长制造爆款的内容公司，最近推出了一款定位为“故事生成助手”的AI工具。

siyushenqi.com
2025 年 8 月 13 日
129000
海外营销

Meta与亚马逊合作，社交电商时代到来了？

两个巨头的跨界合作，释放出了什么信号，又会擦出怎样的火花？

siyushenqi.com
2025 年 8 月 12 日
110000
海外营销

PAGC·出海十问 | 对话泥藕资本曹砚瑜：出海切忌“雾里看花”，挖掘真需求是关键

剖析资本视角下的出海赛道

siyushenqi.com
2025 年 8 月 24 日
120000
海外营销

拿到近千万美元融资，中国团队做“另类”社交产品，“人味儿”堪比DeepSeek

做有价值的AI社交产品。

siyushenqi.com
2025 年 8 月 17 日
89000
海外营销

2023年 Facebook、Instagram、Twitter、TikTok 发展布局前瞻

2022年对于社交媒体来说是充满变数的一年，Meta持续下滑，TikTok持续上升，Twitter目前正处于混乱的管理层更迭之中。进入新的一年，各平台将如何迎战激烈的市场竞争？

siyushenqi.com
2025 年 8 月 24 日
108000
海外营销

阿里25周年马云内部发声，让我泪流满面

马云：过去25年，我们似乎一直在纠结，失落，挫折，痛苦，挣扎……中咬着牙，并且微笑着坚持着，推进并呵护着我们的理想……

siyushenqi.com
2025 年 8 月 6 日
100000
海外营销

如何走出2023中国游戏行业大困局

增量几乎没有，但机会还有不少。

siyushenqi.com
2025 年 8 月 19 日
111000
海外营销

真不是钱的事？这四点，才是中小游戏厂商“心腹大患”

国内游戏圈一直流传着个很出名的段子：中国只有三家游戏公司，腾讯、网易，和其他。

siyushenqi.com
2025 年 8 月 26 日
108000
海外营销

AI应用大盘点：谁暴涨？谁掉队？

截至2025年2月，AI原生APP活跃用户数达2.4亿，比1月几乎翻倍。

siyushenqi.com
2025 年 8 月 13 日
88000
海外营销

1盒35美金也卖爆了！宠物界的“泡泡玛特”

这套专属宠物的盲盒玩法在海外赢麻了

siyushenqi.com
2025 年 8 月 12 日
90000
海外营销

在上海，这25家海外大厂也跟着卷起来了？

中国在逐渐成为游戏产出大国和游戏人才产出地

siyushenqi.com
2025 年 8 月 24 日
152000
海外营销

TEMU要把亚马逊赶下王座

亚马逊在国际电商市场上面临来自拼多多旗下TEMU的激烈竞争，TEMU的全球访问量已位居第二，且用户量有望超过亚马逊。

siyushenqi.com
2025 年 8 月 5 日
88000
海外营销

Stripe 大中华区企业客户总监 Mike Chang 确认担任 GICC2025丨第六届全球互联网产业CEO大会游戏峰会演讲嘉宾&圆桌嘉宾！

Stripe 大中华区企业客户总监 Mike Chang 确认担任 GICC2025丨第六届全球互联网产业CEO大会游戏峰会演讲嘉宾&圆桌嘉宾！

siyushenqi.com
2025 年 10 月 16 日
39000
海外营销

巴西支付或将面临大改善：继两印市场后Facebook在巴西推出WhatsApp Pay

WhatsApp 是Facebook旗下的通讯APP，全球活跃用户超过20亿，日活跃用户超10亿。

siyushenqi.com
2025 年 8 月 26 日
110000
海外营销

6000部短剧的名字里，写着最隐秘的欲望

中文短剧命名学。

siyushenqi.com
2025 年 8 月 18 日
94000
海外营销

灵犀35岁新任总裁首封全员信：多个核心岗位任命，最年轻者32岁

群雄并起。

siyushenqi.com
2025 年 8 月 18 日
99000
海外营销

《幻兽帕鲁》开发商与索尼音乐及ANIPLEX成立合资公司

7月10日，《幻兽帕鲁》开发商Pocketpair, Inc.与索尼音乐娱乐（日本）及其旗下动画制作公司Aniplex Inc.发表联合公告，宣布三家公司已经成立全新合资企业Palworld Entertainment，以探寻并拓展《幻兽帕鲁》IP 的全新价值。

siyushenqi.com
2025 年 8 月 18 日
89000
海外营销

赔偿6个月工资，拳头游戏裁掉了32名员工

拳头游戏联合创始人马克·梅雷尔表示，裁员并非为了省钱，而是为了确保公司拥有正确的专业知识，以维持《英雄联盟》的长期成功。

siyushenqi.com
2025 年 8 月 17 日
94000
海外营销

Grok-2来了，能生图识图、性能比肩GPT-4o，马斯克：发展猛如火箭

GPT-5 不出，Grok 已经赶上了。

siyushenqi.com
2025 年 8 月 13 日
105000
海外营销

2023 年全球移动游戏发行商排行

data.ai 将为读者盘点 2023 年全球移动游戏发行商排名，帮助您了解行业标杆，并从中探究当下手游市场热门趋势。

siyushenqi.com
2025 年 8 月 18 日
86000
海外营销

瞄准Z世代，Shopee再出手！

从增加功能到提供多种支付方式，Shopee持续调整升级以满足受众需求。

siyushenqi.com
2025 年 8 月 6 日
107000
海外营销

ChatGPT重压下，Stack Overflow裁员28%，为自家生成式AI工具开源节流

这可能是ChatGPT直接导致的一次大规模裁员。

siyushenqi.com
2025 年 8 月 13 日
88000