第394章 化繁为简,尽在掌控(5 / 11)
; 他打了个生动的比方,引来台下一阵会意的轻笑。
“按照传统的方法,可能恨不得把解题的每一步思路都掰开揉碎喂给它,告诉它这一步该这样,下一步该那样。”
江倾模仿着严师的样子,逗得大家又笑了起来。
“但我们无问的团队觉得,有时候管的太细,反而会扼杀创造力。所以呢……”
他话锋一转,眼神变得锐利。
“我们换了个思路。我们用了一种叫做GRPO,嗯,大家可以理解为小组相对策略优化的方法。”
江倾故意放慢了语速,确保即使是非专业人士也能跟上他的思路。
“简单说,我们不太关心它中间是怎么想的,是用了九九乘法表还是列了一堆方程式,我们只在乎最后答案对不对。答案对了,就给糖吃,答案错了,就没糖。”
他摊摊手,语气诙谐。
“就这么简单粗暴。”
台下许多技术专家露出了深思的表情。
这种只以最终结果为导向的强化学习方式,听起来简单,但实际操作起来难度极高,需要对奖励信号的设计与优化有极其深刻的理解。
“我们发现,当你只告诉它目标,而不限制路径时,这个学生为了吃到糖,反而会自己琢磨出各种各样,有时甚至我们都没想到的奇妙解题思路。”
江倾笑着指了指自己的脑袋。
“它自我演化出了更高级的推理
↑返回顶部↑