当前位置：首页 > 创领中心 > 网络优化

担忧GPT

网络优化
2024-11-15

还在担忧大言语模型“啥都吃”，结果被用 假信息 训练了？

放在以前，这确实是训练NLP模型时值得担忧的一个难题。

如今，谷歌从基本上处置了这个疑问。

他们做了个名为的AI模型，间接将 常识图谱 用“人话”再形容一遍，生成语料库，再喂给NLP模型训练。

这是由于，常识图谱的信息起源往往 准确靠谱 ，而且还会经过人工挑选、查看，品质 有保证 。

目前，这项钻研曾经被接纳。

如何让AI用“人话”形容常识图谱？

谷歌用来形容常识图谱的TEKGEN模型，全名Text from KG Generator（常识图谱文本生成器）。

它会读取一个常识图谱中的一切词语，捋清它们之间的相关，再用“人话”说进去。

从下图中来看，转换语句分为2步：

首先，将相关图谱中的词语，按逻辑启动陈列；而后，再参与一些词语、并调整语句间的逻辑相关，将它们变成一段完整的话。

为了成功这个配置，TEKGEN包括 4个局部：

全体来看，用TEKGEN生成语句的流程是这样的：

生成后的语句，就能用来安心肠训练 大言语模型 了。

这份生成的语料库，由 4500万 个三元组生成，组合起来的句子有 1600万 句。

那么，用这个语料库训练的NLP模型，能否真能取得更好的效果呢？

“满分5分，人类给它4.3分”

先来看几个连词成句的实例效果。

从输入的词语来看，只要主语、宾语，以及这两个词语之间的相关。

但TEKGEN仿佛“ 悟 ”出了什么，很快就将这些句子组分解了一段反常的语句。

不只时期、地点、附属相关等分得十分分明，逻辑上也合乎咱们往常谈话的语序。

那么， 满分5分 的话，人类关于AI的“图文转换”才干给出几分呢？

谷歌找了些志愿者来启动测评，从结果来看，TEKGEN在“语义”和“流利度”两方面，均取得了 4.3分 以上的好效果。

当然，这外面也用LAMA（LAnguage Model Analysis）probe，来对用这个语料库训练的模型启动了评价。

在Google-RE和TREx两个数据集上，经过预训练的模型，在各项义务上均取得了十分好的效果。

说不定，未来真能让AI去试试 高考语文 的“图文转换”题：

作者引见

论文一作小姐姐Oshin Agarwal，是宾夕法尼亚大学的计算机系在读博士生，钻研方向是人造言语处置中的信息抽取。

这篇论文，是她在谷歌实习时期成功的。

来自谷歌的Heming Ge、Siamak Shakeri和Rami Al-Rfou也介入了这项上班。

目前，作者们曾经将这个用常识图谱生成的语料库放了进去。

想要训练NLP模型的小同伴，可以用起来了~

论文地址：

用常识图谱生成的语料库：

关注微信

上一篇：为什么常识图谱这么火常识图谱的前世今生

下一篇：谱激活数据价值要靠常识图谱

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：https://clwxseo.com/wangluoyouhua/8190.html

担忧GPT

如何让AI用“人话”形容常识图谱？

“满分5分，人类给它4.3分”

作者引见

猜你喜欢

热门标签

随便看看

六种阅读器跨窗口通讯打算

对象的四种形式 JavaScript 比拟

人工智能 PyTorch深度学习框架

JavaScript5大编程言语 PHP Java Python 我该选哪个 C

数据飞轮在媒体行业的运行探求

热门资讯

阅读排行

一口吻处置名目中一切精度失落疑问！写了个插件

B站S赛直播中的关键事情识别与运行

量子人工智能后劲有多大

人工默认技术开发人员应遵照的7条品德准绳

Kubernetes面临敲诈软件攻打 Veritas包全数据免受损害

关注我们

担忧GPT

如何让AI用“人话”形容常识图谱？

“满分5分，人类给它4.3分”

作者引见

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号