Hello folks,我是 Luga,当天咱们来聊一下人工默认(AI)生态畛域相关的技术 - Transformer 神经网络模型 。
自从最新的大型言语模型(LLaM)的颁布,例如 OpenAI 的 GPT 系列、开源模型 Bloom 以及谷歌颁布的 LaMDA等,Transformer 模型曾经展现出了其渺小的后劲,并成为深度学习畛域的前沿架构典范。
在过去几年中,Transformer 模型曾经成为初级深度学习和深度神经网络畛域的抢手话题。自从其在 2017 年被引入以来,Transformer深度学习模型架构曾经在简直一切或许的畛域中获取了宽泛运行和演进。该模型不只在人造言语处置义务中体现杰出,还关于其余畛域,尤其是期间序列预测方面,也具有渺小的协助和后劲。
那么,什么是 Transformer 神经网络模型?
Transformer 模型是一种深度学习架构,自 2017 年推出以来,彻底扭转了人造言语处置 (NLP) 畛域。该模型由 Vaswani等人提出,并已成为 NLP 界最具影响力的模型之一。
通常而言,传统的顺序模型(例如循环神经网络 (RNN))在捕捉远程依赖性和成功并行计算方面存在局限性。为了处置这些疑问,Transformer模型引入了自留意力机制,经过宽泛经常使用该机制,模型能够在生成输入时权衡输入序列中不同位置的关键性。
Transformer模型经过自留意力机制和并行计算的长处,能够更好地处置长距离依赖相关,提高了模型的训练和推理效率。它在机器翻译、文本摘要、问答系统等多个 NLP义务中取得了清楚的性能优化。
除此之外,Transformer 模型的打破性体现使得它成为现代 NLP钻研和运行中的关键组成局部。它能够捕捉复杂的语义相关和高低文消息,极大地推进了人造言语处置的开展。
Transformer 在神经网络中的历史可以追溯到20世纪90年代初,过后 Jürgen Schmidhuber 提出了第一个 Transformer模型的概念。这个模型被称为"极速权重控制器",它驳回了自留意力机制来学习句子中单词之间的相关。但是,虽然这个早期的 Transformer模型在概念上是先进的,但由于其效率较低,它并未获取宽泛的运行。
随着期间的推移和深度学习技术的开展,Transformer在2017年的一篇开创性论文中被正式引入,并取得了渺小的成功。经过引入自留意力机制和位置编码层,有效地捕捉输入序列中的长距离依赖相关,并且在处置长序列时体现杰出。此外,Transformer模型的并行化计算才干也使得训练速度更快,推进了深度学习在人造言语处置畛域的严重打破,如机器翻译义务中的BERT(Bidirectional EncoderRepresentations from Transformers)模型等。
因此,虽然早期的"极速权重控制器"并未遭到宽泛运行,但经过 Vaswani 等人的论文,Transformer模型获取了从新定义和改良,成为现代深度学习的前沿技术之一,并在人造言语处置等畛域取得了令人注目的成就。
Transformer之所以如此成功,是由于它能够学习句子中单词之间的长距离依赖相关,这关于许多人造言语处置(NLP)义务至关关键,由于它准许模型了解单词在句子中的高低文。Transformer应用自留意力机制来成功这一点,该机制使得模型在解码输入标志时能够聚焦于句子中最相关的单词。
Transformer 对 NLP 畛域发生了严重影响。它如今被宽泛运行于许多 NLP 义务,并且始终启动改良。未来,Transformer很或许被用于处置更宽泛的 NLP 义务,并且它们将变得愈加高效和弱小。
无关神经网络 Transformer 历史上的一些关键开展事情,咱们可参考如下所示:
总的来说,Transformer 模型的引入关于 NLP 畛域发生了反派性的影响。它的才干在于学习长距离依赖相关并了解高低文,使得它成为泛滥 NLP义务的首选方法,并为未来的开展提供了宽广的或许性。
Transformer 架构是从RNN(循环神经网络)的编码器-解码器架构中吸取灵感而来,其引入了留意力机制。它被宽泛运行于序列到序列(seq2seq)义务,并且相比于 RNN,Transformer 摒弃了顺序处置的方式。
不同于 RNN,Transformer 以并行化的方式处置数据,从而成功更大规模的并行计算和更极速的训练。这得益于 Transformer架构中的自留意力机制,它使得模型能够同时思考输入序列中的一切位置,而无需按顺序逐渐处置。自留意力机制准许模型依据输入序列中的不同位置之间的相关,对每个位置启动加权处置,从而捕捉全局高低文消息。
nnModule" standard EncoderDecoder architecture Base and manyother models"def self encoder decoder src_embed tgt_embed generatorEncoderDecoder selfselfencoder encoderselfdecoder decoderselfsrc_embed src_embedselftgt_embed tgt_embedselfgenerator generatordef self src tgt src_mask tgt_mask selfselfsrc src_mask src_masktgt tgt_maskdef self src src_mask selfselfsrc src_maskdef self memory src_mask tgt tgt_mask selfselftgt memory src_mask tgt_mask
nnModuledef self d_model vocabGenerator selfselfproj nnd_model vocabdef self x selfx dim
针对 Transformer 的模型通用架构,咱们可參考如下所示:
基于如上的 Transformer 深度学习模型的全体架构参考模型图,咱们可以看到:它由两个关键组件组成:
这是由 Nx个相反的编码器层组成的堆栈(在原始论文中,Nx=6)。每个编码器层都由两个子层组成:多头自留意力机制和前馈神经网络。多头自留意力机制用于对输入序列中的不同位置之间的相关启动建模,而前馈神经网络则用于对每个位置启动非线性转换。编码器堆栈的作用是将输入序列转换为一系列初级特色示意。
Transformer 编码器的全体架构。咱们在 Transformer 编码器中经常使用相对位置嵌入,详细可参考如下:
这也是由 Nx个相反的解码器层组成的堆栈(在原始论文中,Nx=6)。每个解码器层除了蕴含编码器层的两个子层外,还蕴含一个额外的多头自留意力机制子层。这个额外的自留意力机制用于对编码器堆栈的输入启动关注,并协助解码器对输入序列中的消息启动解码和生成输入序列。
在编码器和解码器堆栈之间,还有一个位置编码层。这个位置编码层的作用是应用序列的顺序消息,为输入序列中的每个位置提供一个固定的编码示意。这样,模型可以在没有递归或卷积操作的状况下,应用位置编码层来处置序列的顺序消息。
Transformer 解码器的全体架构,详细可参考如下所示:
在实践的场景中,两者的互动相关如下:
妇孺皆知,Transformer 在处置文本序列、基因组序列、声响和期间序列数据等神经网络设计中起着关键作用。其中,人造言语处置是 Transformer神经网络最经常出现的运行畛域。
当给定一个向量序列时,Transformer 神经网络会对这些向量启动编码,并将其解码回原始方式。而 Transformer的留意力机制则是其无法或缺的外围组成局部。留意力机制标明了在输入序列中,关于给定标志的编码,其周围其余标志的高低文消息的关键性。
打个比如,在机器翻译模型中,留意力机制使得 Transformer能够依据一切相关单词的高低文,将英语中的"it"正确翻译为法语或西班牙语中的性别对应的词汇。 Transformers能够应用留意力机制来确定如何翻译单词,同时思考其周围单词的影响。
但是,须要留意的是,Transformer神经网络取代了早期的循环神经网络(RNN)、长短期记忆(LSTM)和门控循环单元(GRU)等模型,成为了更为先进和有效的选用。
通常而言,Transformer 神经网络接受输入句子并将其编码为两个不同的序列:
词向量嵌入是文本的数字示意方式。在这种状况下,神经网络只能处置转换为嵌入示意的单词。字典中的单词在嵌入示意中示意为向量。
位置编码器将原始文本中单词的位置示意为向量。Transformer将词向量嵌入和位置编码联合起来。而后,它将组合结果发送到各个编码器,而后是解码器。
与 RNN 和 LSTM 按顺序提供输入不同,Transformer 同时提供输入。每个编码器将其输入转换为另一个向量序列,称为编码。
解码器以相反的顺序上班。它将编码转换回概率,并依据概率生成输入单词。经过经常使用 softmax 函数,Transformer可以依据输入概率生成句子。
每个解码器和编码器中都有一个称为留意力机制的组件。它准许一个输入单词经常使用其余单词的相关消息启动处置,同时屏蔽不蕴含相关消息的单词。
为了充沛应用 GPU 提供的并行计算才干,Transformer经常使用多头留意力机制启动并行成功。多头留意力机制准许同时处置多个留意力机制,从而提高计算效率。
相比于 LSTM 和 RNN,Transformer 深度学习模型的长处之一是能够同时处置多个单词。这得益于 Transformer的并行计算才干,使得它能够更高效地处置序列数据。
截止目前,Transformer是构建环球上大少数最先进模型的关键架构之一。它在各个畛域取得了渺小成功,包括但不限于以下义务:语音识别到文本转换、机器翻译、文本生成、释义、问答和情感剖析。这些义务中涌现出了一些最低劣和最驰名的模型。
基于 Transformer 的模型体系图
作为一种由 Google 设计的技术,针对人造言语处置而开发,基于预训练的 Transformer 模型,被宽泛运行于各种 NLP 义务中。
在此项技术中,双向编码器示意转化为了人造言语处置的关键里程碑。经过预训练的 Transformer模型,双向编码器示意(BERT)在人造言语了解义务中取得了清楚的打破。BERT 的意义如此严重,以致于在 2020 年,简直每个英语查问在 Google搜查引擎中都驳回了 BERT 技术。
BERT 的外围现实是经过在大规模无标签的文本数据上启动预训练,使模型学习到丰盛的言语示意。BERT模型具有双向性,能够同时思考一个词在高低文中的左侧和右侧消息,从而更好地捕捉词语的语义和语境。
BERT 的成功标志着 Transformer 架构在 NLP畛域的关键位置,并在实践运行中取得了渺小的影响。它为人造言语处置畛域带来了严重的提高,并为搜查引擎等运行提供了更准确、更默认的语义了解。
生成式预训练 Transformer 2和3区分代表了最先进的人造言语处置模型。其中,GPT(Generative Pre-trainedTransformer)是一种开源的 AI 模型,专一于处置人造言语处置(NLP)相关义务,如机器翻译、问答、文本摘要等。
上述两个模型的最清楚区别在于“规模”和“配置”。详细而言,GPT-3 是最新的模型,相比于 GPT-2,其引入了许多新的配置和改良。除此之外,GPT-3的模型容量到达了惊人的 1750 亿个机器学习参数,而 GPT-2 只要 15 亿个参数。
具有如此渺小的参数容量,GPT-3在人造言语处置义务中展现出了令人惊叹的性能。它具有更弱小的言语了解和生成才干,能够更准确地理解和生成人造言语文本。此外,GPT-3在生成文本方面尤为杰出,能够生成连接、富裕逻辑的文章、对话和故事。
GPT-3 的性能优化得益于其庞大的参数规模和更先进的架构设计。它经过在大规模文本数据上启动预训练,使得模型能够学习到更深化、更片面的言语知识,从而使得GPT-3 能够成为目前最弱小、最先进的生成式预训练 Transformer 模型之一。
当然,除了上方的 2 个外围模型外,T5、BART 和 XLNet 也是 Transformer(Vaswani 等人,2017)家族的成员。这些模型应用Transformer 的编码器、解码器或两者来启动言语了解或文本生成。由于篇幅要素,暂不在本篇博文中赘述。
与基于 RNN 的 seq2seq 模型相比,虽然 Transformer模型在人造言语处置畛域取得了渺小的成功,但是,其自身也存在一些局限性,关键包括以下几个方面:
Transformer模型通常须要少量的计算资源启动训练和推理。由于模型参数泛滥且复杂,须要清楚的计算才干和存储资源来支持其运转,从而使得在资源受限的环境下运行Transformer 模型变得相对艰巨。
在某些特定的场景下,由于 Transformer模型中自留意力机制的个性,其关于长文本的处置存在必定的艰巨。随着文本长度的参与,模型的计算复杂度和存储需求也会清楚参与。因此,关于超长文本的处置,Transformer模型或许会面临性能降低或无法处置的疑问。
在实践的业务场景中,Transformer模型通常是经过在大规模数据上启动预训练,而后在特定义务上启动微调来成功高性能,从而使得模型在实践推理环节中关于新畛域或特定义务的顺应性有限。因此,关于新畛域或特定义务,咱们往往须要启动额外的训练或调整,以提高模型的性能。
Transformer 模型在预训练阶段须要少量的无标签数据启动训练,这使得关于资源受限或特定畛域数据稀缺的状况下运行 Transformer模型变得艰巨。此外,模型关于训练数据的品质和多样性也有必定的依赖性,不同品质和畛域的数据或许会对模型的性能发生影响。
虽然 Transformer模型在言语生成和了解义务上取得了清楚停顿,但其在知识推理和推理才干方面仍存在必定的局限性。模型在处置复杂推理、逻辑推断和形象推理等义务时或许体现不佳,须要进一步的钻研和改良。
虽然存在这些局限性,Transformer 模型依然是最成功和最先进的人造言语处置模型之一,为许多 NLP义务提供了弱小的处置打算。未来的钻研和开展致力将有助于克制这些局限性,并推进人造言语处置畛域的进一步开展。
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://www.clwxseo.com/wangluoyouhua/5455.html