ICLR 2020 正在启动,但总结笔记却相继出炉。咱们曾对 ICLR 2020 上的图机器学习趋向启动引见,本文思索的主题为常识图谱。
作者做波恩大学2018级博士生 Michael Galkin,钻研方向为常识图和对话人工智能。在AAAI 2020 举行之际,他也曾对宣布在AAAI 2020上常识图谱相关的文章做了全方位的剖析,详细可见「常识图谱@AAAI2020」。
本文从五个角度,区分引见了 ICLR 2020上常识图谱相关的 14 篇论文。五个角度区分为:
1)在复杂QA中应用常识图谱启动神经推理(Neural Reasoning for Complex QA with KGs)
2)常识图谱增强的言语模型(KG-augmented Language Models)
3)常识图谱嵌入:循序推理和演绎推理(KG Embeddings: Temporal and Inductive Inference)
4)用GNN做实体婚配(Entity Matching with GNNs)
5)角色表演游戏中的常识图谱(Bonus: KGs in Text RPGs!)
话不多说,咱们来看详细内容。
注:文中触及论文,可关注「AI科技评论」微信群众号,并后盾回复「常识图谱@ICLR2020」打包下载。
往年ICLR2020中,在复杂QA和推理义务中看到越来越多的钻研和数据集,very good。去年咱们只看到一系列关于multi-hop浏览了解数据集的上班,而往年则有少量论文努力于钻研语义分解性(compositionality)和逻辑复杂性(logical complexity)——在这些方面,常识图谱能够帮上大忙。
Intuition behind the construction process of CFQ. Source: Google blog
这里比拟无心思的观念包括:1)用EL Description Logic 来注释疑问(在2005年前后,DL的意思是Description Logic,而不是Deep Learning );2)因为数据集指向语义解析,因此一切疑问都链接到了Freebase ID(URI),因此您无需拔出自己青睐的实体链接系统(例如ElasticSearch)。于是模型就可以更专一于推断相关及其组成;3)疑问可以具备多个级别的复杂性(关键对应于基本图形式的大小和SPARQL查问的过滤器)。
作者将LSTM和Transformers基线运行到该义务,发现它们都没有遵照通用规范(并相应地建设训练/验证/测试拆分):准确性低于20%!关于KGQA喜好者来说,这是一个渺小的应战,因此咱们须要新的想法。
文章链接:
Cohen等人延续了神经查问言语(Neural Query Language,NQL)和可微分常识库议程的钻研,并提出了一种在大规模常识库中启动神经推理的方法。
作者引入了Reified KB。其中理想以稠密矩阵(例如COO格局)示意,方式则是对理想启动编码须要六个整数和三个浮点数(比典型的200浮点KG嵌入要少得多)。而后,作者在实用于多跳推理的邻域上定义矩阵运算。
这种有效的示意方式准许将渺小的KG间接存储在GPU内存中,例如,蕴含1300万实体和4300万理想(facts)的WebQuestionsSP 的 Freebase转储,可以放到三个12-Gb 的 GPU中。而且,在启动QA时可以对整个图谱启动推理,而不是生成候选对象(通常这是外部无法微操作)。
作者在文章中对ReifiedKB启动了一些KGQA义务以及链接预测义务的评价。与这些义务的SOTA方法相比,它的口头成果十分好。
理想上,这项上班作为一个案例,也说明SOTA不应该成为一篇论文能否被接纳的权衡规范,否则咱们就错失了这些新的概念和方法。
文章链接:
Dhingra等人的上班在概念矿建上与下面Cohen等人的上班相似。他们提出了DrKIT,这是一种能用于在索引文本常识库上启动差分推理的方法。
DrKIT intuition. Source: Dhingra et al
这个框架看起来或许会有些复杂,咱们接上去将它分红几个步骤来说明。
1)首先,给定一个question(或许须要多跳推理),实体链接器会生成一组 entities(下图中的Z0)。
2)经常使用预先计算的索引(例如TF-IDF)将一组实体裁减为一组mentions(示意为稠密矩阵A)。
3)在右侧,question 会经过一个相似BERT的编码器,从而构成一个严密向量。
4)一切mentions 也经过一个相似BERT的编码器启动编码。
5)经常使用MIPS(Maximum Inner Product Search)算法计算scoring function(用来权衡mentions, entities 和 question相关分数),从而失掉Top-k向量。
6)矩阵A乘以Top-K 选项;
7)结果乘以另一个稠密的共指矩阵B(映射到一个实体)。
这构成了单跳推理步骤,并且等效于在虚构KB中沿着其相关跟踪提取的实体。输入可以在下一次性迭代中进一步经常使用,因此对N跳义务会重复N次!
此外,作者引见了一个基于Wikidata的新的插槽填充数据集(驳回SLING解析器结构数据集),并在MetaQA、HotpotQA上评价了 DrKIT,总体来说结果十分棒。
文章链接:
Asai等人的上班专一于HotpotQA,他们提出了Recurrent Retriever的结构,这是一种放开域QA的体系结构,能够以可区分的方式学习检索推理门路(段落链)。
Recurrent Retrieval architecture. Source: Asai et al
传统上,RC模型会驳回一些现成的检索模型来失掉或许的候选者,而后才口头神经读取pipeline。这篇上班则宿愿让检索具备差同性,从而将整个系统编程端到端的可训练模型。
1)整个Wikipedia(英语)都以图谱的方式组织,其边示意段落和指标页面之间的超链接。例如关于Natural Questions,大小约为3300万个节点,边有2.05亿个。
2)检索局部驳回的RNN,初始化为一个隐形态h0,这是对疑问 q 和候选段落p编码后取得的。这些候选段落首先经过TF-IDF生成,而后经过图谱中的链接生成。(上图中最左侧)
3)编码(q,p)对的BERT [CLS]令牌会被送到RNN中,RNN会预测下一个相关的段落。
4)一旦RNN发生一个不凡的[EOE]令牌,读取器模块就会失掉门路,对其从新排序并运行典型的提取例程。
作者驳回波束搜查和负采样来增强对喧闹门路的鲁棒性,并很好地突出了门路中的相关段落。重复检索(Recurrent Retrieval )在HotpotQA的 full Wiki测试设置上的F1分数取得了惊人的73分。这篇上班的代码已颁布。
文章链接:
文章链接:
咱们接上去谈两篇复杂数字推理的上班。
在数字推理中,你须要对给定的段落口头数学运算(例如计数、排序、算术运算等)才干回答疑问。例如:
文本:“……美洲虎队的射手乔什·斯科比成功地射入了48码的射门得分……而内特·凯丁的射手失掉了23码的射门得分……”疑问:“谁踢出最远的射门得分?”
目前为止,关于这个义务只要两个数据集,DROP(SQuAD样式,段落中至少蕴含20个数字)和MathQA(疑问较短,须要较长的计算链、原理和答案选项)。因此,这个义务的常识图谱并不很多。虽然如此,这依然是一个幽默的语义解析义务。
在ICLR 2020 上,有两篇这方面的上班。一篇是是Chen 等人的上班,提出了一个神经符号读取器NeRd(Neural Symbolic Reader);另一篇是Gupta等人在神经模块网络NMN(Neural Module Networks)上的上班。
NeRd vs other approaches. Source: Chen et al
两项上班都是由读取器和基于RNN的解码器组成,从预约义的域特定言语(DSL,Domain Specific Language)生成操作(操作符)。从功能上相比,NeRd更胜一筹,要素在于其算符的表白才干更强,解码器在构建组合程序上也更便捷。另一方面,NMN经常使用张量交互对每个运算符启动建模,于是你须要手工制订更多的自定义模块来成功详细义务。
此外,NeRd的作者做了许多努力,为弱监视训练建设了或许的程序集,并驳回了带有阈值的Hard EM 算法来过滤掉虚伪程序(能够基于失误的程序给出正确答案)。NeRd 在DROP测试集上取得了81.7 的F1 分数,以及78.3 的EM分数。
对NMN启动评价,其中月有25%的DROP数据可经过其模块来回答,在DROP dev测试中取得了77.4 的F1 分数 和74 的EM 分数。
将常识融入言语模型,目前已是大势所趋。
文章链接:
往年的ICLR上,Xiong等人在预测[MASK] token之外,提出了一个新的训练指标:须要一个模型来预测entity能否曾经被置换。
作者对预训练Wikipedia语料库启动处置,基于超链接,将Wiki的entity外表方式(标签)交流为相反类型的另一个entity。基于P31的「instance of」相关,从wikidata中失掉类型信息。如下图所示,在无关Spider-Man的段落中,实体 Marvel Comics 可以交流为 DC Comics。
Pre-training objective of WKLM. Source: Xiong et al
模型的义务是预测实体能否被交流掉了。
WKLM(Weakly Supervised Knowledge-Pretrained Languge Model)经常使用MLM指标(掩蔽率为5%,而不是BERT的15%)启动预训练,每个数据点经常使用10个负样本,相似于TransE的训练环节。
作者评价了10个Wikidata相关中的WKLM理想成功功能(fact completion performance),发现其到达了约29 Hits@10的速率,而BERT-large和GPT-2约为16。
随后,作者在功能优于基准的WebQuestions,TriviaQA,Quasar-T和Search-QA数据集上对WKLM启动了微和谐评价。
总结一句话,这是一个陈腐的、便捷的,但却有实质性意义的想法,有少量的试验,也有充沛的消融剖析。
像Wikidata这样的大型常识图谱永远不会是静态的,社区每天都会降级数千个理想(facts),或许是有些理想曾经过时,或许是新的理想须要创立新实体。
循序推理。说到期间,假设要列出美国总统,显然triple-base的常识图谱,会把亚当斯和特朗普都列进去。假设不思索期间的话,能否象征着美国同时有45位总统呢?为了防止这种歧义,你必定绕过纯RDF的限度,要么驳回详细化的方式(针对每个详细的歧义启动消弭),要么驳回更详细现力的模型。例如Wikidata形态模型(Wikidata Statement Model)准许在每个statement中参与限定符,以总统为例,可以将在限定符处放上总统任期的开局期间和完结期间,经过这种方式来示意给定断言为真的期间段。循序常识图谱嵌入算法(Temporal KG Embeddings algorithms)的指标就是够条件这样一个期间感知(time-aware)的常识图谱示意。在常识图谱嵌入中期间维度理想上,只是嵌入字(例如身高、长度、年龄以及其余具备数字或字符串值的相关)的一局部。
演绎推理。大少数现有的常识图谱嵌入算法都在已知一实际体的静态图上运转——所谓的转导设置。当你参与新的节点和边时,就须要从头开局从新计算整个嵌入;但关于具备数百万个节点的大型图来说,这显然不是一个理智的方法。在演绎设置(inductive setup)中,先前看不见的节点可以依据他们之间的相关和邻域启动嵌入。针对这个主题的钻研如今不时参与,ICLR 2020 上也有几篇幽默的文章。
文章链接:
Lacroix等人经常使用新的正则化组件裁减了ComplEx嵌入模型,这些正则化组件思索了嵌入模型中的期间维度。
这项上班十分深入,详细表如今以下几个方面:1)想法是将延续的期间戳(如年,日及其数值属性)注入到正则化器中;2)作者提出TComplEx,其中一切谓词都具备time属性;提出TNTCompEx,其中对诸如「born in」这样“终身”的属性启动区别看待。试验标明,TNTCompEx的功能更好;3)作者引见了一个新的大型数据集,该数据集基于Wikidata Statements,但带有开局期间和完结期间限定符,该数据集蕴含约40万个实体和700万个理想。
Time-aware ComplEx (TNTComplEx) scores. Source: Lacroix et al
上图中,你可以看到这个模型如何对形容法国总统的理想的或许性启动评分:自2017年以来,伊曼纽尔·马克龙的得分更高,而弗朗索瓦·奥朗德在2012–2017年的得分更高。
文章链接:
再进一步,Xu等人提出了暂时图留意力机制TGAT(temporal graph attention),用于建模随期间变动的图,包括可以将新的先前未见的节点与新边参与在一同时的演绎设置。其思想是基于经典和声剖析中的Bochner定理,期间维度可以用傅里叶变换的期间核来近似。期间嵌入与规范嵌入(例如节点嵌入)串联在一同,并且所有输入到自留意力模块中。
Source: Xu et al
作者将TGAT在具备单相关图(不是KG的多相关图)的规范转导与演绎GNN义务上启动了评价,TGAT显示出了很好的功能优化。团体以为,这个通常应该可以进一步裁减到支持多相关KG。
再回到传统的感应式KG嵌入设置(transductive KG embedding setup):
— GNN?是的!— Multi-多相关?是的!— 建设相关的嵌入?是的!— 适宜常识图谱吗?是的!— 实用于节点/图形分类义务吗?是的。
文章链接:
Vashishth 等人提出的 CompGCN体系结构为你带来了一切这些好处。规范的图卷积网络以及信息传递框架在思索图时,通常以为边是没有类型的,并且通常不会构建边的嵌入。
常识图谱是多相关图,边的示意对链接预测义务至关关键。关于(Berlin,?,Germany) 的query,你显然是要预测capitalOf,而不是childOf。
在CompGCN中,首先会为输入的 KG 填充反相关(最近已普遍经常使用)和自循环相关(用来成功GCN的稳固性)。CompGCN驳回编码-解码方法,其中图编码器构建节点和边的示意方式,而后解码器生成某些下游义务(如链接预测或节点分类)的分数。
CompGCN intuition. Source: Vashishth et al
节点示意是经过汇集来自相邻节点的信息而取得的,这些信息对传入和传出的边(图中的Wi,Wo以及那些自循环)启动计数,其中交互函数对 (subject, predicate)启动建模。
作者尝试了加法(TransE-style),乘法(DistMult-style)和圆相关(HolE-style)的交互。在汇总节点信息之后,边的示意将经过线性层启动降级。你简直可以选用任何你青睐的解码器,作者选用的是 TransE,DistMult 和 ConvE 解码器。CompGCN在链接预测和节点分类义务方面都比R-GCN要好,并且在功能上与其余SOTA模型相当。功能最好的CompGCN是经常使用带有ConvE解码器的基于循环相关的编码器。
文章链接:
Last, but not least,Tabacoff和Costabello思索了KGE模型的概率校准。便捷来说,假设你的模型以90%的置信度预测某个理想是正确的,则象征着该模型必定在90%的期间里都是正确的。然而,通常状况并非如此,例如,在下图中,标明TransE偏差于前往较小的概率(有点“乐观”)。
Source: Tabacoff and Costabello
作者驳回Brier评分来测量校准,驳回Platt缩放和等渗回归来优化校准评分,并提出了在没有给出“hard negatives”的典型链接预测打算中对负样本启动采样的战略。于是,你可以校准KGE模型,并确保它会前往牢靠的结果。这是一个十分好的剖析,结果标明在一些工业义务上,你可以用KGE模型来优化你对自己算法/产品的信念。
不同的常识图谱都有他们自己的实体建模的形式,换句话说,不同的属性汇合或许只要局部堆叠,甚至URLs齐全不堆叠。例如在Wikidata中Berlin的URL是,而DBpedia中Berlin的URL是。
假设你有一个由这些异质URL组成的常识图谱,虽然它们两个都是在形容同一个实在的Berlin,但常识图谱中却会将它们视为各自独自的实体;当然你也可以编写/查找自定义映射,以显式的方式将这些URL启动婚配成对,例如放开域常识图谱中经常经常使用的owl:sameAs谓词。保养大规模常识图谱的映射疑问是一个相当繁琐的义务。以前,基于本体的对齐工具关键依赖于这种映射来定义实体之间的相似性。但如今,咱们有GNNs来智能学习这样的映射,因此只要要一个小的训练集即可。
咱们在「常识图谱@AAAI2020」的文章中简明探讨了实体婚配的疑问。而在ICLR 2020 中这方面的钻研有了新的停顿。
文章链接:
Fey 等人推出了DGMC框架(深度图婚配共识,Deep Graph Matching Consensus),这个框架包括两大阶段:
Deep Graph Matching Consensus intuition. Source: Fey et al
1)两个图,源图(Gs)和指标图(Gt),经过相反的GNN(具备相反的参数,示意为ψ_θ1)取得初始节点嵌入。而后经过乘以节点嵌入,并运行Sinkhorn归一化来取得软对应矩阵S(soft correspondences matrix S)。这里可以经常使用任何最适宜义务的GNN编码器。
2)随后将信息传递(也可以看做是图形着色)运行到邻域(标注为ψ_θ2的网络),最后计算出源节点和指标节点之间的距离(ψ_θ3),这个距离示意邻域共识。
作者对DGMC启动了宽泛的义务评价——婚配随机图、婚配指标检测义务的图,以及婚配英、汉、日、法版的DBpedia。无心思的是,DGMC在删除相关类型时,却能发生很好的结果,这说明源KG和指标KG之间基本上是繁多相关。
于是引入这样一条纳闷:假设在Hits@10咱们曾经做到90+%了,真的还须要思索一切属性类型以及限度语义吗?
文章链接:
Yu 等人引见了他们的深度婚配框架,这个框架具备两个比拟显明的特色:聚焦在聚合边缘嵌入、引入一个新的匈牙利留意力(Hungarian attention)。匈牙利算法是处置调配疑问的经典方法,但它不是可微分的。
作者应用一个黑箱(带有匈牙利留意力)的输入来生成网络结构,而后把这个流进一步地流传。匈牙利留意力的方法,直观来了解一下:
1)初始步骤相似于DGMC,一些图编码器生成节点和边嵌入,且相似矩阵经过Sinkhorn规范化来传递;
2)不同的是,生成矩阵被前往到匈牙利黑箱(而不是像DGMC中那样传递迭代信息),从而生成团圆矩阵;
3)经过留意力机制与基准启动比拟,取得激活图,而后对其启动处置,从而取得loss。
作者仅在CV基准上启动了评价,但因为匈牙利算法的期间复杂度是O(n³),所以假设能把runtime 也放进去,或许会更幽默。
互动小说游戏(Interactive Fiction games,例如RPG Zork文字游戏)十分幽默,尤其是你探求完环球,而后输入一段话,期待游戏反应的时刻。
文章链接:
Ammanabrolu 和 Hausknecht 提出了一项无关 IF 游戏中强化学习的新上班。这个上班中经常使用了 常识图谱来建模形态空间和用户交互。
Source: Ammanabrolu and Hausknecht
例如,词汇表中有数十个模板和数百个单词。尝试一切或许的陈列是无法行的。但当你保养一个可见实体的常识图谱时,agent的可选项就会大幅度缩小,于是便可以更快地推进游戏。
在他们提出的编码-解码模型 KG-A2C(Knowledge Graph Advantage Actor Critic)中,编码器驳回GRU启动文本输入,并经常使用图留意力网络构建图嵌入。此外,在解码器阶段经常使用可见对象的图遮掩(graph mask)。在基准测试中,KG-A2C可以玩28个游戏!
Soon they will play computer games better than us meatbags.
很快,电子游戏上,他们将比咱们这些菜包子们打的更好了。
目前咱们看到,常识图谱曾经越来越多地运行到 AI的各个畛域,特意是NLP畛域。
ICML 和ACL 随后也未来到,届时咱们再见。
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://clwxseo.com/wangluoyouhua/8199.html