苦涩教训,涌现智能
曾经翰海觅仙方,兜转无功返故乡。抛却繁思师造化,但凭算力证康庄。
模型无意藏丘壑,数据有心蕴宝藏。一朝顿悟苦涩理,长风破浪任高翔。
在U公司的岁月,是一段学术理想与产业实践完美交融的奇妙旅程。这里跳脱了传统企业研发部门的桎梏,更像是一座矗立在工业界的自由探索殿堂,其创新氛围与DeepMind有着异曲同工之妙。我们的使命并非追逐短视的商业利益,而是将目光坚定地投向未来五到十年的技术疆界,专注于那些足以重塑生物医疗版图的革命性突破。
每年夏天,我都会带领一群充满朝气的实习生,一头扎进科研的深海。我们的研究领域如同一张迅速扩张的星图,从早期的MRI图像重建、反问题求解(inverse problem),到后来基石模型(foundational model)、大语言模型(LLM)和多模态大语言模型(multi-modal LLM),再到如今大放异彩的扩散模型(diffusion model),几乎每一个AI技术浪潮的浪尖,都留下了我们探索的足迹。
我就站在这奔涌的AI潮头,有一种亲身见证并参与历史的激动。我眼看着两条看似独立的巨大技术洪流,正以不可阻挡之势交汇融合,共同塑造着一个全新的AI时代。
第一条洪流,是自然语言处理(NLP)。它有着相当长的演进历史。回想当年还在医院工作时,我就常常需要借助NLP工具来处理临床文本。那时的工具箱里,大多是基于规则的土办法,或是稍显复杂的统计模型。我博士论文的最后一个章节,便是利用统计NLP模型分析基因组数据。随后,谷歌那篇石破天惊的Transformer论文,给NLP领域真正带来了范式革命。它最初的目标其实很具体,就是为了解决机器翻译问题,但它所引入的纯粹基于注意力机制的架构,却彻底改变了游戏规则。Transformer模型像一位优雅的革命者,保留了过去基于循环神经网络的编码器解码器的框架,引入了注意力机制,为整个NLP领域注入了前所未有的活力。
这篇论文如同一块投入平静湖面的巨石,激起层层涟漪。很快,整个领域沿着它开创的道路,分化出两大流派。一个是以谷歌为代表的编码器派,他们将Transformer的编码器单独提取出来,创造了BERT这样擅长理解、总结、分类信息,如同阅读理解高手般的模型。另一个流派,则以OpenAI为首,他们看中了Transformer解码器的潜力,将其发展成解码器派,专注于语言生成,我们所熟知的GPT系列模型便是在这条路线上不断演进的产物。
我必须提及Rich Sutton那篇充满哲学思辨的文章《苦涩的教训》。他提出的核心思想,深深影响了后来的研究者。他建议模型的设计应该尽可能地摆脱人类先验知识的束缚,去利用那些最可扩展的方法。OpenAI正是这一思想最忠实的信徒,他们近乎固执地将这条路走到极致,不断加大模型和数据的规模,从GPT-1到GPT-4,每一步都走得异常坚定。
大力出奇迹就在这个过程中发生了。当模型规模大到突破某个临界点后,一种被称为涌现能力的现象便会发生。原本表现平平的模型,其能力突然开始起飞,在各项任务上都展现出惊人的性能,仿佛一个一直沉睡的巨人,终于睁开了双眼。
为了让这个强大的巨人能够听懂人话,OpenAI引入了另一项关键技术,基于人类反馈的强化学习(RLHF)。正是这道紧箍咒,让生成模型从一个只会随机说胡话的机器,变成了一个能够真正遵循人类指令、有用的智能助手。当海量的知识通过预训练被灌注进大模型,同时它又能精准理解并执行我们的意图时,一个真正的超级AI助理便诞生了。
然而,真正让大模型能力产生质变的,是思维链的提出。它不再让模型直接给出答案,而是引导它像人类一样,一步步思考和推理,将解决问题的过程展现出来。这种能力的解锁,极大地提升了模型在复杂任务上的表现,让它从一个知识渊博的书呆子,蜕变成了一个具备初步推理能力的思考者。
另一条同样波澜壮阔的技术洪流,则是在计算机视觉领域。在Transformer横空出世之前,这片疆域一直由卷积神经网络CNN牢牢统治。CNN的表现固然强悍,但随着数据量的爆炸式增长,Transformer的性能比CNN更好。究其原因,是因为Transformer的归纳偏置更少,它的架构限制更小,给予了数据更大的话语权。当有足够多的数据去喂养它时,它就能学到比CNN更普适、更强大的表征。
眼看着Transformer在NLP领域掀起滔天巨浪,视觉领域的研究者们也按捺不住了。大家纷纷开始尝试将这类模型引入图像和视觉任务。我们团队也紧跟这股潮流,在我负责的一个乳腺癌检测项目中,我亲身体会到了Transformer的威力。基于Transformer的物体检测模型,不仅性能超越了传统的CNN模型,而且表现得更加稳定,尤其是在降低假阳性方面,效果显著。这意味着我们的模型能更精准地发现病灶,同时减少不必要的恐慌和重复检查。
当然,视觉领域也面临着自己独特的挑战。与文本数据相比,高质量、经标注的图像数据要稀缺得多,获取成本也高昂。这使得NLP领域那种简单粗暴的Scaling Law在视觉领域的效果不那么立竿见影。与此同时,视觉领域也迎来了自己的生成革命。从早期的GAN,到后来效果更惊艳、原理也大不相同的扩散模型,AI开始学习创造图像。我们也在研究中发现,扩散模型生成图像的质量和逼真度远超前辈GAN,但也带来了一个问题:不可控性。它有时会像一个过于自由的画家,在画作上随意添上一笔,产生一些难以预料的幻觉。你可以想象,如果在一张大脑的核磁共振图像上,AI凭空创造出一个肿瘤,那将是多么可怕的医疗事故。因此,我们研究的重心,很多时候都放在了如何为这位天才画家套上缰绳,让它在挥洒创意的同时,也能确保作品的高保真,绝对忠实于原始数据。
历史的车轮滚滚向前,两条奔腾的河流终将汇入同一片大海。视觉领域的研究者们,羡慕地看着NLP领域的GPT系列模型如何一统江湖,也开始思考,如何让大模型拥有自己的眼睛。于是,多模态的号角被吹响,研究者们开始致力于让大模型能够同时理解文本和图像,甚至根据文本生成图像。这就像为聪慧的大脑,安上了一双明亮的眼睛,让它对世界的认知,从抽象的符号,延伸到了具体、生动的视觉。
无论是NLP还是计算机视觉,尽管起点不同,技术路径各异,但发展至今,却呈现出惊人的趋同。大家都奔向了Transformer的怀抱,都信奉着Scaling Law的信条,都开始围绕着大语言模型构建新的生态,只不过一个是从语言出发,一个是从视觉切入,最终都在多模态的山峰上胜利会师。整个领域,就这样奇妙地统一了起来,一个由统一架构、统一思想主导的AI新纪元,已然拉开了序幕。而我,有幸站在这交汇点上,亲身感受着这股塑造未来的磅礴力量。
Last updated