如今在AI业界众所周知的Transformer,终究是怎么在短短期间爆火的?
构想一下你逛左近的五金店,在货架上看到一种新型的锤子。它比其余锤子敲得更快、更准确,在过去几年里,它曾经淘汰了许多其余锤子,至少在大少数用途中是这样。而且经过一些调整——这里加个附件,那里加个扭矩——这个工具还能变成了一把锯子!它的切割速度和准确度不亚于任何同类产品。理想上,一些处于五金开发前沿的专家示意,这把锤子或许只是一切五金工具将融合到单个设施中的先兆。相似的故事正在AI业界中演出。那个「多配置的新锤子」是称为Transformer的人工神经网络,这是一种经过对现有数据启动训练来「学习」如何成功某些义务的节点网络。
最后,Transformer被用于言语处置,不过最近则影响到了更多的畛域。2017年,Transformer初次出如今谷歌钻研人员宣布的论文中,该论文标题是奥秘的「Attention Is All You Need」。之前其他人工智能的通用门路是,系统会首先关注输入数据部分的块,而后再去构建全体。例如,在言语模型中,临近的单词首先会被组合在一同。而Transformer的运转门路,则会让输入数据中的每个单元都相互咨询或获取关注,钻研人员将此称为「自留意力」。这象征着一旦开局训练,Transformer就可以看到整个数据集的处置轨迹。
论文链接:很快,Transformer就成为专一于剖析和预测文本的单词识别等运行程序的领头羊。它催生了一批新的AI工具,比如OpenAI的GPT-3,它可以训练数千亿个单词并继续生成语义可读的新文本,智能到令人不安。Transformer的成功让AI业界猎奇它还能成功其余哪些义务,而答案正在揭晓。在诸如图像分类的视觉义务中,经常使用Transformer的神经网络更快、更准确。而那些须要一次性性处置多种输入数据/方案义务的新兴义务也预示着,Transformer能口头的上班还可以更多。就在10年前,AI学界的不同子畛域之间简直没有共通言语。但Transformer的来到标明了融合的或许性。
德克萨斯大学奥斯汀分校的计算机迷信家Atlas Wang说:「我以为Transformer之所以如此受欢迎,是由于它暗含着全畛域通用的后劲。咱们有充沛的理由想要在整个AI迷信范围内尝试经常使用Transformer」。
在「Attention Is All You Need」论文颁布几个月后,扩展Transformer运行范围的最有出路的举措之一就开局了。事先在柏林的谷歌钻研部门上班的计算机迷信家Alexey Dosovitskiy,正在钻研计算机视觉,这是一个专一于教计算机如何处置和分类图像的AI子畛域。与该畛域的简直一切其他人一样,他事先的罕用工具是卷积神经网络(CNN),多年来,这种技术推进了深度学习、尤其是计算机视觉畛域的一切严重飞跃。CNN的上班原理是重复对图像中的像素经常使用滤波器,以建设对特色的识别。正是由于卷积配置,照片运行程序可以按脸孔组织图片库,或许将云与鳄梨区别开来。由此,CNN也成为了视觉义务处置中必无法少的工具。
Dosovitskiy正在钻研该畛域最大的应战之一,即扩展CNN的规模,以训练越来越高分辨率图像带来的越来越大的数据集,同时不增延处置期间。这时他留意到,Transformer在NLP义务中简直曾经齐全取代了此前一切的工具。那么,能否也能在视觉处置上做到相似成果呢?这个想法很有洞见。毕竟,假设Transformer可以处置单词的大数据集,为什么不能处置图片的呢?最终的结果是一个名为「视觉Transformer」或ViT的神经网络,钻研人员在2021年5月的一次性会议上展现了该网络。
论文链接:该模型的架构与2017年提出的第一个Transformer的架构简直相反,只启动了庞大的更改,使其能够剖析图像而非文字。ViT团队知道他们无法齐全模拟Transformer处置言语数据的方法,由于每个像素的自留意力要在模型运转中所有成功,将会极端耗时。相反,他们将较大的图像划分为正方形的单元,也就是所谓的词元(token)。词元大小是恣意的,由于可以依据原始图像的分辨率变大或变小(自动是每边16像素)。经过火单元处置像素,并对每个单元运行自留意力,ViT可以极速处置少量训练数据集,从而发生越来越准确的分类。
Transformer以超越90%的准确率对图像启动分类,这比Dosovitskiy预期的结果要好得多。在ImageNet分类应战赛这项业界标杆性图像识别较量中,ViT迅速取得榜首。ViT的成功标明,CNN或许不像很多钻研人员以为的那样,是计算机视觉的惟一基础。与Dosovitskiy协作开发ViT的Neil Houlsby说:「我以为CNN很或许在不久的未来被视觉Transformer或其衍生品所取代。」与此同时,其余的结果也允许了这个预测。在2022年终的测试中,ViT的降级版本仅次于将CNN与Transformer相联合的新方法。而之前的冠军CNN模型,如今勉强进入前10名。
ImageNet的结果标明,Transformer确实可以与CNN相抗衡。然而,谷歌的计算机迷信家Maithra Raghu想知道它们能否像CNN那样「看到」图像。虽然神经网络是一个臭名昭著的黑匣子,但有一些方法可以窥探其外部状况。比如。经过逐层审核网络的输入和输入,从而了解训练数据是如何流动的。
论文链接:关于CNN来说,它会一一像素地识别图像,经过从部分到全局的模式识别每一个角落或线条的特色。在自留意力的加持下,Transformer甚至可以在神经网络的第一层,就把散布在图像中间的消息建设咨询。假设说CNN的方法就像从一个像素开局加大,那么Transformer则是缓缓地将整个含糊的图像变得明晰。这种差异在言语畛域更容易了解。比如,猫头鹰发现了一只松鼠。它试图用爪子抓住它,但只抓到了它的尾巴末端。第二个句子的结构令人困惑。这些「它」指的是什么?一个只关注紧挨着「它」字的CNN会很吃力,但一个将每个字与其余字咨询起来的Transformer可以看出,猫头鹰做了抓取的举措,而松鼠则失去了部分尾巴。
如今钻研人员宿愿将Transformer运行于一项更艰难的义务:生成新图像。就像GPT-3等言语工具可以依据其训练数据生成新文本一样。于是,在2021年宣布的一篇论文中,Wang联合了两个Transformer模型,试图对图像做雷同的事件。这是一个艰难得多的义务。
论文链接:当双Transformer网络在超越20万名人的面部图片上启动训练时,它以中等分辨率分解了新的面部图像。依据初始分数(一种评价神经网络生成图像的规范方法),Transformer生成的名人图片令人印象深入,并且至少与CNN生成的名人图片一样令人信服。
Transformer在生成图像方面的成功,比ViT在图像分类方面的才干更令人惊叹。雷同,在多模态处置方面,Transformer也有了一席之地。在以前孤立的方法中,每种类型的数据都有自己的专门模型。而多模态网络则可以让一个程序除了听声响外,还可以读取一团体的嘴唇。也就是可以同时处置多种类型数据的模型,如原始图像、视频和言语。「你可以领有丰盛的言语和图像消息示意数据,」Raghu说,「而且比以前更深化。」
新兴名目标明了Transformer在其余AI畛域的一系列新用途,包括教机器人识别人体静止、训练机器识别语音中的心情以及检测心电图表现的患者压力水平。另一个带有Transformer组件的程序是AlphaFold,2021年它因其极速预测蛋白质结构的才干而成为头条资讯——这项义务以前须要十年的期间深化剖析。
即使Transformer可以有助于AI工具的融合和改良,新兴技术通常也会带来高昂的代价,Transformer也不例外。Transformer在预训练阶段须要更高的算力撑持,而后才干施展击败传统竞争对手的准确性。Wang示意,人们总会对高分辨率图像越来越有兴味。而由此带来的模型训练老本下跌,或许是Transformer宽泛铺开的一个毛病。不过,Raghu以为此类训练阻碍可以经过复杂的滤波器和其余工具轻松克制。
Wang还指出,虽然视觉Transformer曾经引发了推进AI行进开展的新名目——包括他自己的名目在内,但许多新模型依然蕴含了卷积配置的最精髓部分。这象征着未来的模型更有或许同时经常使用CNN与Transformer,而不是齐全丢弃CNN。而这预示了此类混合架构的迷人前景。或许,咱们不应该急于得出Transformer将成为最终模型的论断。不过可以必需的是,Transformer越来越有或许成为从业者常光临的AI五金店里任何一种新的超级工具的必备组件。
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://clwxseo.com/wangluoyouhua/8894.html