当前位置: 首页 > 创领中心 > 网络优化

担忧GPT

  • 网络优化
  • 2024-11-15

还在担忧大言语模型“啥都吃”,结果被用 假信息 训练了?

放在以前,这确实是训练NLP模型时值得担忧的一个难题。

如今,谷歌从基本上处置了这个疑问。

他们做了个名为的AI模型,间接将 常识图谱 用“人话”再形容一遍,生成语料库,再喂给NLP模型训练。

这是由于,常识图谱的信息起源往往 准确靠谱 ,而且还会经过人工挑选、查看,品质 有保证

目前,这项钻研曾经被接纳。

如何让AI用“人话”形容常识图谱?

谷歌用来形容常识图谱的TEKGEN模型,全名Text from KG Generator(常识图谱文本生成器)。

它会读取一个常识图谱中的一切词语,捋清它们之间的相关,再用“人话”说进去。

从下图中来看,转换语句分为2步:

首先 ,将相关图谱中的词语,按逻辑启动陈列; 而后 ,再参与一些词语、并调整语句间的逻辑相关,将它们变成一段完整的话。

为了成功这个配置,TEKGEN包括 4个 局部:

全体来看,用TEKGEN生成语句的流程是这样的:

生成后的语句,就能用来安心肠训练 大言语模型 了。

这份生成的语料库,由 4500万 个三元组生成,组合起来的句子有 1600万 句。

那么,用这个语料库训练的NLP模型,能否真能取得更好的效果呢?

“满分5分,人类给它4.3分”

先来看几个连词成句的实例效果。

从输入的词语来看,只要主语、宾语,以及这两个词语之间的相关。

但TEKGEN仿佛“ ”出了什么,很快就将这些句子组分解了一段反常的语句。

不只时期、地点、附属相关等分得十分分明,逻辑上也合乎咱们往常谈话的语序。

那么, 满分5分 的话,人类关于AI的“图文转换”才干给出几分呢?

谷歌找了些志愿者来启动测评,从结果来看,TEKGEN在“语义”和“流利度”两方面,均取得了 4.3分 以上的好效果。

当然,这外面也用LAMA(LAnguage Model Analysis)probe,来对用这个语料库训练的模型启动了评价。

在Google-RE和TREx两个数据集上,经过预训练的模型,在各项义务上均取得了十分好的效果。

说不定,未来真能让AI去试试 高考语文 的“图文转换”题:

作者引见

论文一作小姐姐Oshin Agarwal,是宾夕法尼亚大学的计算机系在读博士生,钻研方向是人造言语处置中的信息抽取。

这篇论文,是她在谷歌实习时期成功的。

来自谷歌的Heming Ge、Siamak Shakeri和Rami Al-Rfou也介入了这项上班。

目前,作者们曾经将这个用常识图谱生成的语料库放了进去。

想要训练NLP模型的小同伴,可以用起来了~

论文地址:

用常识图谱生成的语料库:

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://clwxseo.com/wangluoyouhua/8190.html

猜你喜欢

热门资讯

关注我们

微信公众号