昆仑万维不仅发布了 Skywork o1 Open,还开源了两个针对推理任务的 Process-Reward-Model(PRM),分别是 Skywork o1 Open-PRM-1.5B 和 Skywork o1 Open-PRM-7B,这些模型能够对模型回答中的每个步骤进行打分。
Skywork o1 的进步得益于昆仑万维自研的三阶段训练方案,包括推理反思能力训练、推理能力强化学习,以及基于 Q* 算法的推理 planning。Q* 算法是一种新的线上推理算法,能够显著提升 LLM 的推理能力,并降低计算资源需求。
Skywork o1 Lite 和 Preview 版本的实际测试,包括解决脑筋急转弯、常识推理、数学问题、逻辑推理和伦理决策等问题,展示了模型在这些领域的推理和决策能力。
同时,Skywork o1 Open 还解锁了 GPT-4o 等更大量级模型无法完成的数学推理任务(如 24 点计算)。这也为推理模型在轻量级设备上的部署提供了可能性。
本文源自「私域神器」,发布者:siyushenqi.com,转载请注明出处:https://www.firethy.com/32720.html