还在担忧大言语模型“啥都吃”,结果被用 假信息 训练了?
放在以前,这确实是训练NLP模型时值得担忧的一个难题。
如今,谷歌从基本上处置了这个疑问。
他们做了个名为的AI模型,间接将 常识图谱 用“人话”再形容一遍,生成语料库,再喂给NLP模型训练。
这是由于,常识图谱的信息起源往往 准确靠谱 ,而且还会经过人工挑选、查看,品质 有保证 。
目前,这项钻研曾经被接纳。
谷歌用来形容常识图谱的TEKGEN模型,全名Text from KG Generator(常识图谱文本生成器)。
它会读取一个常识图谱中的一切词语,捋清它们之间的相关,再用“人话”说进去。
从下图中来看,转换语句分为2步:
首先 ,将相关图谱中的词语,按逻辑启动陈列; 而后 ,再参与一些词语、并调整语句间的逻辑相关,将它们变成一段完整的话。
为了成功这个配置,TEKGEN包括 4个 局部:
全体来看,用TEKGEN生成语句的流程是这样的:
生成后的语句,就能用来安心肠训练 大言语模型 了。
这份生成的语料库,由 4500万 个三元组生成,组合起来的句子有 1600万 句。
那么,用这个语料库训练的NLP模型,能否真能取得更好的效果呢?
先来看几个连词成句的实例效果。
从输入的词语来看,只要主语、宾语,以及这两个词语之间的相关。
但TEKGEN仿佛“ 悟 ”出了什么,很快就将这些句子组分解了一段反常的语句。
不只时期、地点、附属相关等分得十分分明,逻辑上也合乎咱们往常谈话的语序。
那么, 满分5分 的话,人类关于AI的“图文转换”才干给出几分呢?
谷歌找了些志愿者来启动测评,从结果来看,TEKGEN在“语义”和“流利度”两方面,均取得了 4.3分 以上的好效果。
当然,这外面也用LAMA(LAnguage Model Analysis)probe,来对用这个语料库训练的模型启动了评价。
在Google-RE和TREx两个数据集上,经过预训练的模型,在各项义务上均取得了十分好的效果。
说不定,未来真能让AI去试试 高考语文 的“图文转换”题:
论文一作小姐姐Oshin Agarwal,是宾夕法尼亚大学的计算机系在读博士生,钻研方向是人造言语处置中的信息抽取。
这篇论文,是她在谷歌实习时期成功的。
来自谷歌的Heming Ge、Siamak Shakeri和Rami Al-Rfou也介入了这项上班。
目前,作者们曾经将这个用常识图谱生成的语料库放了进去。
想要训练NLP模型的小同伴,可以用起来了~
论文地址:
用常识图谱生成的语料库:
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://clwxseo.com/wangluoyouhua/8190.html