023小说网 > 其他类型 > 大白话聊透人工智能 > 伊利诺伊大学团队AI推理新突破:“AI思维的隐藏规律”

伊利诺伊大学团队AI推理新突破:“AI思维的隐藏规律”(1 / 1)

推荐阅读:

伊利诺伊大学香槟分校张俊宇团队联合麻省理工、宾大等院校搞出的这项研究,核心就是给ai的“思考行为”定了规矩——提出推理定律(lore)框架,第一次从理论上解释了为啥ai会“瞎琢磨”(简单题想太多)或“敷衍了事”(复杂题想太少),还给出了能让ai变“懂事”的训练方法。咱们用大白话把这个硬核研究拆明白,普通人也能看懂ai到底咋思考、咋变聪明。

一、先搞懂:现在的ai推理有多“不靠谱”?

咱们先看个生活里的例子:一个学生考试,遇到1+1=2这种简单题,非要写满一页草稿纸论证;碰到压轴的复杂数学题,却只写两行就交卷。现在的大型推理ai(比如openai的o1、deepseek的r1)就这德性——思考资源分配完全没谱。

这种“不靠谱”带来两个大问题:一是效率低,简单问题浪费算力,复杂问题算力不够;二是准确率差,该细想的没细想,该简略的瞎啰嗦,最终结果一言难尽。

研究团队一深挖,发现病根儿很简单:ai训练时没人教它“怎么合理分配思考时间”。就像家长教孩子做题,只讲“这道题咋做”,却没说“简单题快速过,复杂题多琢磨”,孩子自然乱分配时间。ai也是如此,没人给它定“思考规矩”,只能凭训练时的经验瞎蒙,导致推理行为又乱又不可控。

二、核心突破:推理定律(lore)——给ai的思考定“家规”

研究团队提出的推理定律框架,就像给ai制定的“思考家规”,包含计算定律和准确性定律两条核心规矩,还配套了验证方法,咱们一个个掰扯清楚。

1 两个核心定律:ai思考的“基本准则”

咱们把ai的推理过程比作厨师做菜,一下子就能懂这两条定律:

- 计算定律:思考资源要和问题复杂度成正比

好厨师做菜,炒个番茄炒蛋10分钟搞定,做道佛跳墙得花好几个小时——菜越复杂,花的时间和精力越多。

ai思考也该这样:解决问题需要的“思考资源”(比如推理步骤、算力消耗),必须和问题的复杂度成正比。

这里的“问题复杂度”,研究团队给了明确定义:解决问题需要的最少基本操作步骤数。步就能搞定,复杂度低;算一个复杂的矩阵运算,需要10步,复杂度就是前者的10倍。

按计算定律,复杂度10倍的问题,ai该花10倍的思考资源。但现在的ai经常违反这个规矩——简单题花10倍资源,复杂题只花1倍,纯属本末倒置。

- 准确性定律:问题越复杂,准确率越容易“断崖式下跌”

这个定律咱们用多米诺骨牌来理解:摆3块骨牌,轻轻一推就能全倒;摆100块骨牌,只要有1块没摆好,整个链条就断了,全倒的概率会急剧下降。

ai推理复杂问题时,就像摆多米诺骨牌——复杂问题需要分多步推理,每一步都有出错的可能,步骤越多,出错概率就会呈指数级上升,最终准确率“断崖式下跌”。比如解一道需要10步的数学题,每步准确率90,最终准确率只有348;要是20步,准确率直接跌到121,这就是指数衰减的威力。

2 两个验证原理:怎么判断ai守没守“家规”?

直接测量“问题复杂度”太难了(就像很难说清“番茄炒蛋和红烧肉谁更复杂”),研究团队又提出两个可落地的验证原理,相当于“家规执行的检查标准”:

- 单调性原理:问题越难,资源该越多,准确率该越低

就像爬山,爬500米的小山,花的体力少,登顶概率高;爬5000米的雪山,花的体力多,登顶概率还低。

对应到ai上:如果问题a比问题b复杂,那ai解决a时,该消耗更多思考资源,准确率也该比b低。要是反过来,就说明ai的推理行为出问题了。

- 组合性原理:独立问题的思考资源要“加起来”,准确率要“乘起来”

还是用做菜举例:做番茄炒蛋(10分钟)和红烧肉(30分钟),两道菜独立,一起做的话总时间该是10+30=40分钟;要是厨师只用20分钟就做完,要么偷工减料,要么瞎忙活。

对应到ai上:两个完全独立的问题(比如一道几何题和一道代数题,解题思路互不干扰),ai同时解决它们时:

要是ai的表现偏离这个标准,就说明它的思考分配又乱了。

三、lore-bench测试基准:给ai做“推理体检”

光有定律和原理还不够,得有工具检测ai守没守规矩。研究团队开发了lore-bench测试基准,相当于给ai做“推理行为体检”的专用工具,分两个部分:

1 lore-ono:检测单调性的“阶梯题集”

这个部分的核心是构造难度递增的问题序列,确保问题的复杂度关系是明确的,就像给学生出的“阶梯练习题”,从1步到30步难度逐步增加。

- 具体做法:选数学、科学、语言、编程4个领域,每个领域设计10个“种子问题”(比如基础的矩阵计算、简单的编程题);然后给每个种子问题增加步骤,生成30个难度递增的变体(比如1步矩阵运算→2步→…→30步)。这样一来,第30个变体的复杂度明确是第1个的30倍。

- 检测目的:看ai解决这些阶梯题时,思考资源是不是随着难度增加而增加,准确率是不是随着难度增加而降低——如果是,说明ai符合单调性原理;如果不是,就是“体检不合格”。

- 防作弊设计:研究团队会仔细检查问题序列,排除那些有“捷径”的题(比如答案有周期性规律,ai不用推理就能蒙对),确保ai必须真思考,而不是耍小聪明。

2 lore-po:检测组合性的“拼盘题集”

这个部分的核心是组合两个独立的问题,就像给厨师出的“拼盘任务”,让他同时做两道毫不相干的菜。

- 具体做法:从着名的ath500数学数据集里,随机选两个来自不同学科的问题(比如几何题+代数题),组合成一道“复合题”;确保这两个子问题完全独立,解决一个对另一个没任何帮助。

- 检测目的:看ai解决复合题时,思考资源是不是等于两个子问题的资源之和,准确率是不是等于两个子问题的准确率之积——如果差得太远,就说明ai的组合性表现不合格。

四、体检结果:现在的ai有多“不达标”?

研究团队用lore-bench给10个主流推理ai(比如deepseek-r1系列、phi-4-i)做了“体检”,结果让人挺意外:单调性勉强及格,组合性几乎全军覆没。

1 单调性:大部分ai“基本及格”

面对阶梯题集时,大部分ai能做到“题越难,花的思考资源越多,准确率越低”,就像学生面对难题会多花点时间,虽然正确率下降,但态度是对的。

但也有例外:一些小模型(比如15b参数的模型)在某些领域“犯糊涂”——比如解决第30步的复杂题,花的资源比第1步的简单题还少,纯属“敷衍了事”。

2 组合性:几乎所有ai“严重挂科”

这是最严重的问题,几乎所有测试的ai都违反了组合性原理,主要表现为两种“思考错位”:

- 思考不足:偷工减料

- 思考过剩:胡思乱想

还是上面那道复合题,ai却花了50步推理,远超理论需要的30步。这就像厨师做番茄炒蛋,非要用做佛跳墙的步骤,又是熬高汤又是雕花,纯属浪费时间——不仅效率低,还可能因为步骤太多出错,准确率反而更低。

研究团队总结:现在的ai推理模式是“随机且不一致”的,就像没学过时间管理的孩子,完全凭感觉分配思考时间,根本没有章法。

五、对症下药:sft-po训练法——让ai学会“合理思考”

发现问题了,就得解决问题。研究团队开发了sft-po训练方法,核心就是“教ai学规矩”,让它慢慢学会按推理定律分配思考资源,咱们用训练运动员的例子来理解这个方法:

教练训练马拉松选手,不会让他瞎跑,而是会制定科学的训练计划,教他“前半程保存体力,后半程发力冲刺”——sft-po就是ai的“推理教练”,教它“简单题少花资源,复杂题多花资源”。

sft-po的具体操作步骤:

1 选“练习题”:构造复合题

从训练数据里选两个不同类别的独立问题,组合成复合题(比如“语文阅读理解+数学应用题”),确保两个子问题互不干扰。

2 找“示范老师”:让强模型生成标准答案

找一个更强大的“教师模型”(比如参数更多、推理能力更强的ai),让它给每个复合题生成多个解题方案——就像让经验丰富的老师给学生写示范答案。

3 挑“优质答案”:选符合组合性原理的方案

这是最关键的一步!不是所有示范答案都能用,研究团队会筛选那些最符合组合性原理的方案——也就是“解决复合题的推理步骤≈子问题1步骤+子问题2步骤”的答案。

相当于从老师的示范里,挑出“时间分配最合理”的那个,让ai照着学。

小主,这个章节后面还有哦,请点击下一页继续阅读,后面更精彩!

4 让ai“刷题”:学优质的推理模式

用筛选后的优质答案训练ai,让它慢慢记住“复合题该花多少步骤思考”,逐渐养成合理分配资源的习惯——就像学生反复看优质示范,慢慢学会合理安排考试时间。

六、训练效果:ai变“懂事”了,准确率还涨了!

研究团队在4个不同规模的ai模型(从15亿参数到8亿参数)上测试了sft-po方法,结果特别让人惊喜:ai不仅推理行为变规矩了,准确率还实打实提升了。

1 组合性偏差大幅降低:ai不再“瞎琢磨”

以15亿参数的模型为例,训练前的组合性偏差是528(简单说就是ai的思考资源分配和理论值差了一半多),训练后直接降到314——意味着ai的思考越来越“守规矩”,不再出现“简单题瞎忙活、复杂题敷衍了事”的情况。

就像一个学生学会了考试时间管理,不再在选择题上浪费半小时,而是把时间留给压轴题。

2 准确率显着提升:从“瞎蒙”到“真会做”

推理行为的改善,直接转化成了准确率的提升。比如在ai 2024数学竞赛题上,一些模型的准确率提升了超过7个百分点——这个提升可不是靠“死记硬背”,而是靠“更合理的思考”,是真正的能力进步。

3 意外惊喜:协同效应——单调性也变好了

sft-po本来是为了改善组合性设计的,但研究团队发现,它顺带还改善了ai的单调性表现——ai解决阶梯题时,资源分配和准确率变化更符合规律了。

这就像学生学会了合理分配时间,不仅压轴题做得好,简单题也做得又快又准,属于“意外收获”。

4 对照实验:证明是“方法有用”,不是“瞎猫碰上死耗子”

为了确保提升不是偶然,研究团队做了对照实验:用同样的训练数据,但不筛选符合组合性原理的答案——结果模型的准确率几乎没提升。

这就证明:是推理定律指导的训练策略起了作用,而不是简单的“多刷题”。

七、这个研究到底有啥用?

1 理论意义:给ai推理搭了“科学框架”

以前咱们研究ai推理,就像“没有食谱的烹饪”——全靠经验和试错,不知道为啥ai这么思考,也不知道咋改进。

现在推理定律框架来了,就像物理学里的牛顿定律——第一次给ai的推理行为提供了可验证的科学规律,让咱们能“看懂ai的思考”,而不是把它当成“黑盒子”。

2 实际意义:让ai更高效、更靠谱,还省钱

- 对开发者:不再“盲目堆算力”

以前想提升ai推理能力,开发者只能“堆参数、加算力”,不仅成本高,还不一定有用。现在有了推理定律,开发者可以针对性设计训练策略,让ai用更少的算力,达到更好的效果——相当于“花小钱办大事”。

- 对普通人:ai助手变“贴心”了

以后咱们用ai写报告、解数学题、做方案时,ai不会再“简单题写一堆废话,复杂题只写两行”——它会根据问题难度合理分配思考时间,给出的答案更准确、更高效。比如你问ai“怎么写一篇500字的读后感”,它不会给你写2000字的冗余内容;你问它“怎么解一道复杂的微积分题”,它也不会敷衍你。

- 对关键领域:让ai更安全、更可控

在医疗、金融、工业这些关键领域,ai的推理行为可控太重要了。比如用ai诊断疾病,要是ai“敷衍了事”,可能会漏诊;要是“瞎琢磨”,可能会误诊。推理定律能让ai的诊断过程更合理、更透明,提升医疗ai的可信度。

八、研究的局限性与未来方向

研究团队也坦诚,这项工作还有不少短板,未来还有很多可探索的方向:

1 测试基准的问题多样性不够:目前lore-ono只有40个种子问题,覆盖的领域和题型还不够多——就像体检只查了几个项目,不够全面。未来需要扩大题集规模,加入更多类型的问题(比如常识推理、创意写作)。

2 “问题独立性”的定义不够精准:现在判断两个问题是否独立,主要看学科类别,现实中有些问题看似独立,实则有隐藏联系——未来需要更精细的方法来定义“独立性”。

3 没测试最顶尖的闭源模型:由于计算资源限制,研究只测试了开源模型,像gpt-4、cude这些闭源大模型的推理行为还不清楚——未来需要把这些模型纳入测试,验证推理定律的普适性。

4 对准确率组合性的优化还不够:目前sft-po主要优化的是“思考资源分配”,对“准确率的指数衰减”还没有很好的解决办法——未来需要研究新方法,让ai在复杂问题上的准确率不再“断崖式下跌”。

九、核心总结

张俊宇团队的这项研究,干了一件“从0到1”的大事——第一次给ai的推理行为定了科学规律。推理定律框架就像ai的“思考家规”,sft-po方法就像“教家规的老师”,两者结合,让ai从“瞎琢磨”变成“会思考”。

未来随着这个研究的推进,ai会变得越来越“懂事”——不仅能更高效地解决问题,还能让我们更清楚地知道“它为啥这么思考”。这不仅能提升ai的性能,还能让ai在更多关键领域安全落地,真正造福人类。

章节报错(免登录)
最新小说: 人在吞噬,盘龙成神 分家后,我打猎捕鱼养活一家七口 阳间路,阴间饭 人在超神,开局晋级星际战士 名义:都这么邪门了还能进步? 兽语顶流顾队宠疯了 迷踪幻梦 重生汉末当天子 国师大人等等我! 顾魏,破晓时相见