一、先聊ai的“致命短板”:物理世界里是个“笨家伙”
咱们平时总听说ai多厉害,能写论文、能画画、能聊天,但你知道吗?ai在现实物理世界里其实挺“笨”的。就拿最简单的事儿来说,让ai抓个球、拼个拼图,或者从地上捡个东西,它大概率做不好。
你可能会问,这是为啥呢?咱们举个例子,你让ai读一本关于“怎么抓球”的书,它能把书里的精华全吸收了,比如“抓球要判断速度、角度”“手指要张开”这些理论它门儿清。但真让它伸手去抓,它就抓瞎了——要么抓空了,要么把球捏变形了。这就像一个学霸,把物理书背得滚瓜烂熟,但实际动手做实验就一塌糊涂。
有人总结了原因:现在的ai,尤其是大语言模型,就像个“书呆子”,它的知识全是从文本里学的,比如书籍、论文、网页。它没在现实世界里摸爬滚打过,没体验过“球从手里滑走”的感觉,没感受过“拼图块卡不进去”的挫败,所以遇到物理世界的事儿就抓瞎。打个比方,你教一个从没见过苹果的人,把“苹果是红色、圆形、甜的”这些文字背得再熟,他第一次见到苹果也可能认错,因为他没实际摸过、尝过。
二、ai的“培训方式”光啃书本,没接地气
为啥ai在物理世界里这么“笨”?核心问题出在“培训方式”上。现在培训ai,尤其是大语言模型,就是把海量的文本知识一股脑灌进去,比如把人类写的所有书、所有论文、所有网上的文字都喂给它。但这就像让孩子只读书本,从不出门体验生活,他能考上高分,但一到实际场景就傻眼。
举个例子,你想让ai学会“倒咖啡不洒”,如果只给它看“倒咖啡要慢、杯子要拿稳”的文字,它永远学不会。因为它不知道“慢”是多慢,“稳”是多稳,也不知道咖啡液的重量、流速这些实际因素。但如果让它在现实里练几百次,洒几次咖啡,它慢慢就知道怎么控制了。但现在的ai没这个机会,它的“老师”只有文本,没有现实世界的“实操课”。
再比如,你想让ai理解“什么是软”“什么是硬”。文本里可能说“棉花是软的,石头是硬的”,但ai没摸过棉花和石头,它对“软”和“硬”的理解就只停留在文字上。真让它区分一块海绵和一块橡皮,它可能就分不清了。这就是“纸上谈兵”的典型后果。
三、ai缺了个关键能力:空间智能(三维感知)
除了没在现实世界培训,ai还缺一个核心能力——空间智能。啥是空间智能?简单说就是“三维感知能力”,比如判断一个物体的大小、形状、位置,以及它和其他物体的关系。
咱们人类天生就有这能力。你看到一个杯子放在桌子边缘,会本能地知道“它可能会掉下去”;你拼拼图时,会知道哪块该往哪个角落放。但ai没有这种感知。比如让ai玩积木,它可能知道“这块积木是正方形”,但不知道“把它放在左边第三层会不会倒”。
这就像一个人在黑夜里走路,人类能通过周围的环境(比如墙的位置、地面的高低)判断方向,但如果这个人没有空间感知能力,就会到处碰壁。ai在物理世界里就像这个“摸黑走路”的人,因为它没有空间智能,所以搞不定需要三维判断的事儿,比如抓球(得判断球的运动轨迹和自己手的位置关系)、拼图(得判断拼图块的形状和缺口的匹配度)。
既然ai在物理世界里这么“笨”,那有没有办法解决呢?了一个方案:智能眼镜+增强现实(ar)。
啥是ar增强现实?简单说就是你戴上眼镜后,不仅能看到真实的世界,还能看到虚拟的东西叠加在上面。比如你戴ar眼镜看桌子,能看到桌子上的杯子旁边弹出一个标签,写着“这是陶瓷杯,容量300l”;你看远处的建筑,能看到它的结构剖面图。
如果把ai和ar眼镜结合起来,ai就能“看见”物理世界了。比如你让ai帮你修自行车,它通过ar眼镜“看到”自行车的零件,然后在你眼前弹出维修步骤,告诉你“先拆脚踏板,再检查链条”。这时候ai就不是只靠文字知识,而是结合了现实世界的视觉信息,决策就靠谱多了。
再比如,让ai帮你整理房间,它通过ar眼镜“看到”地上的书、桌上的杯子,然后规划出“先把书放回书架,再把杯子拿到厨房”的步骤。这比只靠文字描述“房间里有书和杯子”要准确得多。
除了ar眼镜,还有个更高级的概念叫xr(扩展现实),它包括了ar、vr(虚拟现实)、r(混合现实)等。如果把ai和xr结合起来,就能打造一个“镜像世界”——也就是和现实世界一模一样的虚拟世界。
就像一个司机,先在模拟驾驶器上练几千次,把各种路况都体验一遍,真正上路时就不容易出事故。ai在镜像世界里练好了“抓球”“拼图”的技能,到现实世界里就能得心应手了。
凯文凯利(科技领域的“预言家”)就说过,没有ai就没办法做xr的增强,现在智能眼镜还没普及, partly 是因为ai还不够便宜。本降下来,智能眼镜+xr+ai的组合就能爆发,到时候ai就能在物理世界里大显身手了。
六、智能眼镜反哺ai:让ai“移动”起来,打造“世界模型”
智能眼镜不仅能帮ai“看见”物理世界,还能反过来促进ai的发展。因为有了智能眼镜,ai就能“移动”了,能在现实世界里定位自己,知道“我在哪里”“周围有什么”。
比如,ai戴着智能眼镜开车,它能实时看到路况、其他车辆的位置,然后做出决策。它还能把这些信息整合起来,打造一个“世界模型”——也就是对整个物理世界的理解和模拟。有了这个世界模型,ai就能像人类一样,预判“前面的车可能会变道”“这个路口可能会有行人闯红灯”,从而做出更聪明的决策。
再比如,ai在生产线上戴着智能眼镜,能“看到”每个零件的位置、状态,然后规划出最优的组装路径,还能实时检测产品的质量。这比只靠文本指令要高效、准确得多。
凯文凯利认为,ai特别擅长“造世界”(打造世界模型),而智能眼镜能给它提供打造世界模型的“原材料”(现实世界的视觉、空间信息)。所以,智能眼镜和ai是相互成就的关系:智能眼镜让ai更好地理解物理世界,ai让智能眼镜的功能更强大。
七、总结:ai的“物理短板”,未来靠这几步突破
咱们把这些点总结一下,ai现在在物理世界里“笨”
1 培训方式单一:只靠文本学习,没在现实世界实操过;
2 缺乏空间智能:对三维世界的感知和判断能力不足。
- 打造镜像世界(虚拟的现实复制),让ai在虚拟世界里尽情“练习”
- 通过智能眼镜和镜像世界,让ai打造世界模型,从而在现实世界里做出聪明的决策。
现在的ai就像一个“偏科生”,文科(文本理解)特别好,理科(物理实操)特别差。但只要补上“现实培训”“空间智能”这两门课,再配上“智能眼镜”“xr”这些工具,它就能变成“全才”,在物理世界里也能大展拳脚。
对于咱们普通人来说,这意味着未来我们身边的ai设备会越来越“聪明”——不仅能和我们聊天、帮我们写东西,还能帮我们修车、做饭、照顾老人。当然,这一切的前提是ai得先把物理世界的“课”补好,而智能眼镜、xr、镜像世界就是它的“补课工具”。咱们可以期待一下,用不了多久,ai就不是只会啃书本的“书呆子”,而是能在物理世界里和我们并肩作战的“全能助手”了。