他想起了ai发展史上,那篇如同“圣经”般的论文——《attention is all you need》。
2017年,谷歌的研究员们,发表了这篇划时代的论文,首次提出了“transforr”架构。这篇论文,就象物理学界的“相对论”,它为整个ai领域,提供了一个全新的、颠复性的底层范式。
但是,从《attention is all you need》这篇仅仅8页的论文,到今天能与人类对答如流的chatgpt-4,中间隔着许多东西。
徐辰的脑海中,浮现出了那篇论文的作者名单。其中一位作者,noa shazeer,曾经说过的一句名言,那句话后来成为了ai圈的信条:
“oney is all you need”(你只需要钱。)
这虽然是一句玩笑,却道出了大模型训练最残酷的真相。
……
大模型的训练,是一个极其复杂的系统工程,更是一场烧钱的游戏。
首先是数据工程。如何从pb级的原始文本中,清洗出高质量的预训练语料?如何设计tokenizer(分词器)以平衡词表大小和串行长度?如何构建多样化的指令微调(sft)数据集?这些都是秘而不宣的行业机密。
其次是训练稳定性。在数千张gpu上进行分布式训练,如何处理梯度爆炸或消失?如何设计混合精度训练策略(ixed precision trag)以兼顾速度和精度?任何一个环节的参数设置不当,都可能导致loss(损失函数)无法收敛,甚至训练崩溃。
还有那个着名的“规模定律”(scalg ws)。jared kapn在2020年提出的这个定律,就象是ai领域的“摩尔定律”。它冷酷地指出:模型的性能与计算量、数据集大小和参数数量之间,存在着严格的幂律关系。这意味着,想要更智能的模型?没别的办法,堆算力,堆数据,堆钱!
最后是对齐。如何通过rlhf(基于人类反馈的强化学习),利用ppo(近端策略优化)算法,将模型的输出分布与人类的价值观偏好对齐,使其既有用又安全?这更是一个充满了玄学和经验主义的领域。
……
《attention is all you need》,它提供的,只是一个“基础原理”。
它没有告诉你,这个模型到底要堆多少层才效果最好?没有告诉你训练时学习率该如何设置?更没有告诉你如何进行rlhf,让模型学会“听懂人话”。
这些,才是将一个“基础原理”,转化为一个“可用产品”的、真正的、最内核的工程壁垒。
而这些,都需要海量的实验,海量的试错,海量的资金和算力,去一点一点地“堆”出来。
【我明白了……】
徐辰无奈地叹了口气。
【这依然只是一份学术成果,值不了1000个亿。】
【喵了个咪的,好不容易体验了3分钟成为千亿富翁的心态,这么快就结束了。】
他大概理解了这份手稿的价值。它就象是一张画在纸上的核聚变反应堆图纸,理论上能解决能源危机,但离造出真正的反应堆,还差着十万八千里。
而且,因为内核算法缺失,这张图纸还是残缺的。
【系统这波画饼,画得是真圆啊。】
不过,虽然没有直接的商业价值,但这篇论文的学术价值依然巨大。如果将这个成果公布出去,全世界ai投资的方向就会来一次巨大的转向,现有的ai商业逻辑必然重塑,影响还是挺大的。
加之当前华国和美国在ai领域的竞争,这篇论文,还得慎重一点才好。
【先收起来吧。】
徐辰将这份手稿郑重地收进系统物品栏。。】
【到时候,我就不信补不全你!】
……
【接下去看看有啥新的主线任务吧。】
他将意识,重新聚焦到系统面板上。
只见,在完成了“学术界的冠冕”这个史诗级任务后,一个全新的、难度更高的主线任务,已经悄然浮现。
【新主线任务发布:‘多维度的学者’】
【任务描述:数学是所有科学的语言,但语言本身,无法描绘整个宇宙。请宿主在攀登数学高峰的同时,将视野拓展至更广阔的领域。】
【任务要求:除数学学科外,在其他至少3门理工农医类基础学科(如物理、化学、生物、计算机等)领域,分别发表至少一篇被sci收录的学术论文。】
【结算机制:系统将根据宿主发表论文的期刊等级、学术影响力及引用情况进行综合评定。】
徐辰看着这个任务,嘴角忍不住抽搐了一下。
【三门学科?】
【我就知道!】
他回想起刚才那个“残缺”的ai算法手稿,再看看眼前这个“多维度学者”的任务要求,一种强烈的“被安排”感油然而生。
【先是给我一个需要信息学和物理学知识才能补全的ai算法,紧接着就发布任务让我去发其他学科的论文……】
【这系统,绝对有黑幕!】
【这哪里是随机抽奖?这分明就是‘定向投喂’!就象游戏里的新手引导一样,先把任务道具塞给你,然后逼着你去接任务!】
【系统,你是不是早就计划好了,要把我培养成那种全知全能的‘六边形战士’?】
徐辰看着这个任务要求,感觉自己的肝,又开始隐隐作痛了。
【数学还没满级呢,就要我去开新坑?还要开三个?】
【系统,你这是要榨干我啊……生产队的驴都不敢这么使唤!】
不过,吐槽归吐槽,徐辰心里也明白,系统的安排其实是有深意的。
现代科学发展到今天,学科之间的界限已经越来越模糊。最前沿的突破,往往都发生在交叉领域。
就象他刚刚得到的那个ai算法,如果没有深厚的数学功底,根本无法理解其背后的逻辑;而如果没有物理学和信息学的知识,也无法将其落地实现。
【好在,刚刚那个‘残缺’的奖品,虽然坑是坑了点,但也算是给我指了一条明路。
【那篇关于ai的论文,只要我能把缺失的算法补全,发一篇信息学领域的顶刊,应该是稳了。这就解决了一门学科。】
【至于剩下的两门……】
徐辰摸了摸下巴。
【物理学似乎是个不错的选择。毕竟数学和物理不分家,而且那个ai算法里也涉及到了统计物理。】
【还有一门……生物?化学?还是材料?】
【算了,反正主线任务一般都是长期任务,可以以年为单位进行推进。先把信息学这块硬骨头啃下来再说吧。】
……
再看看经验任务吧。
【经验任务1(常驻):‘学术的基石’】
【任务描述:在jcr一区期刊上,发表一篇学术论文。】
【任务奖励:映射学科经验值200点。奖励系数根据期刊影响因子、论文引用数、作者排位等综合评定。】
——
【经验任务2(新增):‘知识的布道者’】
【任务描述:通过网络直播的形式,进行一场公开的数学教程或科普讲座,单场直播同时在线观看人数峰值,达到10万人。】
【任务奖励:映射学科经验值200点。奖励系数根据在线人数、影响力等综合评定】
——
【经验任务3(新增):‘学术的啄木鸟’】
【任务描述:在已公开发表的、具有一定影响力的学术论文中,找出一处关键性的、足以影响论文内核结论的错误,并公开发表勘误或评论文章。】
【任务奖励:映射学科经验值300点。奖励系数根据原论文作者的学术地位、期刊影响力等综合评定。】
……
徐辰看着这三个全新的经验任务,思考了起来。
【任务1,还是老样子,最稳妥,也最适合我。】
【任务2,直播?10万人同时在线?】他立刻摇了摇头。
【系统为什么这么执着得想让我出道啊,上次开出主线任务的时候,系统也是让我上网课影响10万人来着,现在又是直播10万人,难度更大啦。】
如果以他最近发表四大的热度,开个直播来个两三万人估计不是什么难事,但是任务的要求是让他以公开的数学教程的方式直播,那鬼才会来呢。
而且他知道,直播间的热度,和真实在线人数,是两码事。
要让十万个活人,同时在线听他讲数学,这难度确实忒大了。
……
【至于任务3……】
徐辰的眼中,闪过一丝感兴趣的光芒。
【找出着名学者的论文错误?学术打假?】
【这个……听起来,倒是挺带感的。】
他想起了学术史上,那些着名的“打假”事件。
比如,前几年闹得沸沸扬扬的、关于阿尔茨海默症研究的造假丑闻。一篇发表在顶刊上的、被认为是该领域奠基性工作的论文,其内核的实验图象,被一位名不见经传的青年学者,发现存在伪造的痕迹。这一发现,直接导致了整个阿尔茨海默症研究领域,过去十几年的研究方向,可能都是创建在一个错误的假设之上,引发了巨大的学术地震。
【这个任务,很有正义感。避免人类的学术成果,被引入歧途。】
但他很快,就知道自己肯定完不成。
【我现在只有数学能力还比较强。但是,数学作为最严谨的学科,其论文在发表前,都要经过极其严格的同行评审。想要在数学顶刊上,找到一个足以颠复其内核结论的重大错误,也就代表着同行们都错了,这不太现实。?】
经过一番权衡,他最终,还是做出了最稳妥的选择。
“锁定,经验任务1。”
【还是老老实实,发论文,刷经验吧。!】