438. 思维链路_重生之AI教父

最先进的大模型是如何思考问题的，这个思索推理的过程是非常珍贵的信息。

因为此前，让大模型具有推理分析能力需要大量高质量的CoT思维链数据。

许多难题应该如何逐步推理，不仅要准备每一步的分析，还要交叉确认这些内容步骤正确。这比起大模型早期时代在互联网上到处摘抄文字，获取的难度和成本不可同日而语。

饶是孟繁岐坐拥最大的AI相关知识交互社区，想要梳理出高质量的思维链文本也并不容易。

通过大量类似的高质量数据监督大模型学习推理的过程，这才有了第一个强智能的推理模型o1。

在这样的领先优势之下，自然不可能详细开放o1的推理过程给用户。

若是如此，其他公司获取思维链路数据以蒸馏自己AI模型的成本就会远低于自己，孟繁岐不可能做这样的傻事。

坐拥这样的先发优势，孟繁岐又可以借助用户的反馈，来获取和调整新的思维链路数据。

因此在他看来，自己在大模型思维推理这方面的优势是巨大的，拥有坚不可摧牢不可破的壁垒。

然而，DeepSeek-R1-zero狠狠地击碎了他自说自话的梦想。

“R1-zero可以直接在DeepSeek-V3的版本上做强化学习，不需要大量高质量监督数据就能够探索出比较好的思维推理，增强了模型回复的长度、逻辑性和准确度。唯一的问题是这种方式获取的模型思维对于人类来说可读性不强。”孟繁岐继续阅读着R1-zero和R1的相关报告。

与各种自媒体所宣传的不需要思维链数据不同，R1系列显然还是需要这些高质量数据的，这让孟繁岐内心稍稍安宁了一些，只要这部分数据还有价值，他总不至于沦落到过去一年多的投入变为一场空。

真正的R1还是需要优质思维链路数据来冷启动的，虽然从结果上看，R1并没有比R1-Zero准确很多，不过它的思维逻辑和方式人类更加容易读懂了。

可以说，比起现在人人都抢着试用的R1，R1-Zero版本给孟繁岐的震撼要大很多。

R1-Zero成为了一种合成高质量思维链数据的方式，比起孟繁岐刀耕火种的标注和确认，大模型合成的规模和效率显然存在千万倍的潜力。

“有R1-Zero获取大规模的链路数据，针对思维链的每一个步骤再去分析计算，也就不大必要了。”孟繁岐终于理解了

　　本章未完，请点击下一页继续阅读！

看了《重生之AI教父》的书友还喜欢看

作者：J神

简介：【不废柴，不舔狗，天骄争霸暴爽无敌流】

君逍遥穿越玄幻世界...

更新时间：2025-03-31 10:30:00

作者：剑轻阳

简介：【【2017玄幻征文】参赛作品】身怀至尊天子之血，开启最强天子之眼！

更新时间：2025-03-31 10:05:07

作者：流浪的虎猫

简介：穿越在熟悉的影视世界，体验不一样的人生，现代世界，武侠世界，科幻世界，魔幻世界...

更新时间：2025-03-31 11:23:00

作者：阿斯巴酸

简介：做了周寒之的舔狗六年，也没换来他回眸一顾久别重逢，那个女孩笑着告诉我：不被爱的才是第...

更新时间：2025-03-31 10:52:00

最新章节：第899章

作者：楚休

简介：成为被李二大大称为英果类我的李恪，本想抱着未来皇帝李治大腿的，过上遛狗斗鸡的二代生活...

更新时间：2025-03-31 11:28:41

作者：风九元

简介：周元，穿越到仙侠世界三年后觉醒悍匪掠夺系统。

“系统，签到...

更新时间：2025-03-31 11:30:00