当前位置：首页 > 创领中心 > 网络优化

一文全览上的常识图谱钻研 ICLR 2020

网络优化
2024-11-15

ICLR 2020 正在启动，但总结笔记却相继出炉。咱们曾对 ICLR 2020 上的图机器学习趋向启动引见，本文思索的主题为常识图谱。

作者做波恩大学2018级博士生 Michael Galkin，钻研方向为常识图和对话人工智能。在AAAI 2020 举行之际，他也曾对宣布在AAAI 2020上常识图谱相关的文章做了全方位的剖析，详细可见「常识图谱@AAAI2020」。

本文从五个角度，区分引见了 ICLR 2020上常识图谱相关的 14 篇论文。五个角度区分为：

1）在复杂QA中应用常识图谱启动神经推理（Neural Reasoning for Complex QA with KGs）

2）常识图谱增强的言语模型（KG-augmented Language Models）

3）常识图谱嵌入：循序推理和演绎推理（KG Embeddings: Temporal and Inductive Inference）

4）用GNN做实体婚配（Entity Matching with GNNs）

5）角色表演游戏中的常识图谱（Bonus: KGs in Text RPGs!）

话不多说，咱们来看详细内容。

注：文中触及论文，可关注「AI科技评论」微信群众号，并后盾回复「常识图谱@ICLR2020」打包下载。

一、在复杂QA中应用常识图谱启动神经推理

往年ICLR2020中，在复杂QA和推理义务中看到越来越多的钻研和数据集，very good。去年咱们只看到一系列关于multi-hop浏览了解数据集的上班，而往年则有少量论文努力于钻研语义分解性（compositionality）和逻辑复杂性（logical complexity）——在这些方面，常识图谱能够帮上大忙。

1、Measuring Compositional Generalization: A Comprehensive Method on Realistic>
Intuition behind the construction process of CFQ. Source: Google blog

这里比拟无心思的观念包括：1）用EL Description Logic 来注释疑问（在2005年前后，DL的意思是Description Logic，而不是Deep Learning ）；2）因为数据集指向语义解析，因此一切疑问都链接到了Freebase ID（URI），因此您无需拔出自己青睐的实体链接系统（例如ElasticSearch）。于是模型就可以更专一于推断相关及其组成；3）疑问可以具备多个级别的复杂性（关键对应于基本图形式的大小和SPARQL查问的过滤器）。

作者将LSTM和Transformers基线运行到该义务，发现它们都没有遵照通用规范（并相应地建设训练/验证/测试拆分）：准确性低于20％！关于KGQA喜好者来说，这是一个渺小的应战，因此咱们须要新的想法。

2、Scalable Neural Methods for Reasoning With a Symbolic Knowledge Base

文章链接：

Cohen等人延续了神经查问言语（Neural Query Language，NQL）和可微分常识库议程的钻研，并提出了一种在大规模常识库中启动神经推理的方法。

作者引入了Reified KB。其中理想以稠密矩阵（例如COO格局）示意，方式则是对理想启动编码须要六个整数和三个浮点数（比典型的200浮点KG嵌入要少得多）。而后，作者在实用于多跳推理的邻域上定义矩阵运算。

这种有效的示意方式准许将渺小的KG间接存储在GPU内存中，例如，蕴含1300万实体和4300万理想（facts）的WebQuestionsSP 的 Freebase转储，可以放到三个12-Gb 的 GPU中。而且，在启动QA时可以对整个图谱启动推理，而不是生成候选对象（通常这是外部无法微操作）。

作者在文章中对ReifiedKB启动了一些KGQA义务以及链接预测义务的评价。与这些义务的SOTA方法相比，它的口头成果十分好。

理想上，这项上班作为一个案例，也说明SOTA不应该成为一篇论文能否被接纳的权衡规范，否则咱们就错失了这些新的概念和方法。

3、Differentiable Reasoning over a Virtual Knowledge Base

文章链接：

Dhingra等人的上班在概念矿建上与下面Cohen等人的上班相似。他们提出了DrKIT，这是一种能用于在索引文本常识库上启动差分推理的方法。

DrKIT intuition. Source: Dhingra et al

这个框架看起来或许会有些复杂，咱们接上去将它分红几个步骤来说明。

1）首先，给定一个question（或许须要多跳推理），实体链接器会生成一组 entities（下图中的Z0）。

2）经常使用预先计算的索引（例如TF-IDF）将一组实体裁减为一组mentions（示意为稠密矩阵A）。

3）在右侧，question 会经过一个相似BERT的编码器，从而构成一个严密向量。

4）一切mentions 也经过一个相似BERT的编码器启动编码。

5）经常使用MIPS（Maximum Inner Product Search）算法计算scoring function（用来权衡mentions, entities 和 question相关分数），从而失掉Top-k向量。

6）矩阵A乘以Top-K 选项；

7）结果乘以另一个稠密的共指矩阵B（映射到一个实体）。

这构成了单跳推理步骤，并且等效于在虚构KB中沿着其相关跟踪提取的实体。输入可以在下一次性迭代中进一步经常使用，因此对N跳义务会重复N次！

此外，作者引见了一个基于Wikidata的新的插槽填充数据集（驳回SLING解析器结构数据集），并在MetaQA、HotpotQA上评价了 DrKIT，总体来说结果十分棒。

4、Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question Answering

文章链接：

Asai等人的上班专一于HotpotQA，他们提出了Recurrent Retriever的结构，这是一种放开域QA的体系结构，能够以可区分的方式学习检索推理门路（段落链）。

Recurrent Retrieval architecture. Source: Asai et al

传统上，RC模型会驳回一些现成的检索模型来失掉或许的候选者，而后才口头神经读取pipeline。这篇上班则宿愿让检索具备差同性，从而将整个系统编程端到端的可训练模型。

1）整个Wikipedia（英语）都以图谱的方式组织，其边示意段落和指标页面之间的超链接。例如关于Natural Questions，大小约为3300万个节点，边有2.05亿个。

2）检索局部驳回的RNN，初始化为一个隐形态h0，这是对疑问 q 和候选段落p编码后取得的。这些候选段落首先经过TF-IDF生成，而后经过图谱中的链接生成。（上图中最左侧）

3）编码（q，p）对的BERT [CLS]令牌会被送到RNN中，RNN会预测下一个相关的段落。

4）一旦RNN发生一个不凡的[EOE]令牌，读取器模块就会失掉门路，对其从新排序并运行典型的提取例程。

作者驳回波束搜查和负采样来增强对喧闹门路的鲁棒性，并很好地突出了门路中的相关段落。重复检索（Recurrent Retrieval ）在HotpotQA的 full Wiki测试设置上的F1分数取得了惊人的73分。这篇上班的代码已颁布。

5、Neural Symbolic Reader: Scalable Integration of Distributed and Symbolic Representations for Reading Comprehension

文章链接：

6、Neural Module Networks for Reasoning over Text

文章链接：

咱们接上去谈两篇复杂数字推理的上班。

在数字推理中，你须要对给定的段落口头数学运算（例如计数、排序、算术运算等）才干回答疑问。例如：

文本：“……美洲虎队的射手乔什·斯科比成功地射入了48码的射门得分……而内特·凯丁的射手失掉了23码的射门得分……”疑问：“谁踢出最远的射门得分？”

目前为止，关于这个义务只要两个数据集，DROP（SQuAD样式，段落中至少蕴含20个数字）和MathQA（疑问较短，须要较长的计算链、原理和答案选项）。因此，这个义务的常识图谱并不很多。虽然如此，这依然是一个幽默的语义解析义务。

在ICLR 2020 上，有两篇这方面的上班。一篇是是Chen 等人的上班，提出了一个神经符号读取器NeRd（Neural Symbolic Reader）；另一篇是Gupta等人在神经模块网络NMN（Neural Module Networks）上的上班。

NeRd vs other approaches. Source: Chen et al

两项上班都是由读取器和基于RNN的解码器组成，从预约义的域特定言语（DSL，Domain Specific Language）生成操作（操作符）。从功能上相比，NeRd更胜一筹，要素在于其算符的表白才干更强，解码器在构建组合程序上也更便捷。另一方面，NMN经常使用张量交互对每个运算符启动建模，于是你须要手工制订更多的自定义模块来成功详细义务。

此外，NeRd的作者做了许多努力，为弱监视训练建设了或许的程序集，并驳回了带有阈值的Hard EM 算法来过滤掉虚伪程序（能够基于失误的程序给出正确答案）。NeRd 在DROP测试集上取得了81.7 的F1 分数，以及78.3 的EM分数。

对NMN启动评价，其中月有25%的DROP数据可经过其模块来回答，在DROP dev测试中取得了77.4 的F1 分数和74 的EM 分数。

二、常识图谱增强的言语模型

将常识融入言语模型，目前已是大势所趋。

7、Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model

文章链接：

往年的ICLR上，Xiong等人在预测[MASK] token之外，提出了一个新的训练指标：须要一个模型来预测entity能否曾经被置换。

作者对预训练Wikipedia语料库启动处置，基于超链接，将Wiki的entity外表方式（标签）交流为相反类型的另一个entity。基于P31的「instance of」相关，从wikidata中失掉类型信息。如下图所示，在无关Spider-Man的段落中，实体 Marvel Comics 可以交流为 DC Comics。

Pre-training objective of WKLM. Source: Xiong et al

模型的义务是预测实体能否被交流掉了。

WKLM（Weakly Supervised Knowledge-Pretrained Languge Model）经常使用MLM指标（掩蔽率为5％，而不是BERT的15％）启动预训练，每个数据点经常使用10个负样本，相似于TransE的训练环节。

作者评价了10个Wikidata相关中的WKLM理想成功功能（fact completion performance），发现其到达了约29 Hits@10的速率，而BERT-large和GPT-2约为16。

随后，作者在功能优于基准的WebQuestions，TriviaQA，Quasar-T和Search-QA数据集上对WKLM启动了微和谐评价。

总结一句话，这是一个陈腐的、便捷的，但却有实质性意义的想法，有少量的试验，也有充沛的消融剖析。

三、常识图谱嵌入：循序推理和演绎推理

像Wikidata这样的大型常识图谱永远不会是静态的，社区每天都会降级数千个理想（facts），或许是有些理想曾经过时，或许是新的理想须要创立新实体。

循序推理。说到期间，假设要列出美国总统，显然triple-base的常识图谱，会把亚当斯和特朗普都列进去。假设不思索期间的话，能否象征着美国同时有45位总统呢？为了防止这种歧义，你必定绕过纯RDF的限度，要么驳回详细化的方式（针对每个详细的歧义启动消弭），要么驳回更详细现力的模型。例如Wikidata形态模型（Wikidata Statement Model）准许在每个statement中参与限定符，以总统为例，可以将在限定符处放上总统任期的开局期间和完结期间，经过这种方式来示意给定断言为真的期间段。循序常识图谱嵌入算法（Temporal KG Embeddings algorithms）的指标就是够条件这样一个期间感知（time-aware）的常识图谱示意。在常识图谱嵌入中期间维度理想上，只是嵌入字（例如身高、长度、年龄以及其余具备数字或字符串值的相关）的一局部。

演绎推理。大少数现有的常识图谱嵌入算法都在已知一实际体的静态图上运转——所谓的转导设置。当你参与新的节点和边时，就须要从头开局从新计算整个嵌入；但关于具备数百万个节点的大型图来说，这显然不是一个理智的方法。在演绎设置（inductive setup）中，先前看不见的节点可以依据他们之间的相关和邻域启动嵌入。针对这个主题的钻研如今不时参与，ICLR 2020 上也有几篇幽默的文章。

8、Tensor Decompositions for Temporal Knowledge Base Completion

文章链接：

Lacroix等人经常使用新的正则化组件裁减了ComplEx嵌入模型，这些正则化组件思索了嵌入模型中的期间维度。

这项上班十分深入，详细表如今以下几个方面：1）想法是将延续的期间戳（如年，日及其数值属性）注入到正则化器中；2）作者提出TComplEx，其中一切谓词都具备time属性；提出TNTCompEx，其中对诸如「born in」这样“终身”的属性启动区别看待。试验标明，TNTCompEx的功能更好；3）作者引见了一个新的大型数据集，该数据集基于Wikidata Statements，但带有开局期间和完结期间限定符，该数据集蕴含约40万个实体和700万个理想。

Time-aware ComplEx (TNTComplEx) scores. Source: Lacroix et al

上图中，你可以看到这个模型如何对形容法国总统的理想的或许性启动评分：自2017年以来，伊曼纽尔·马克龙的得分更高，而弗朗索瓦·奥朗德在2012–2017年的得分更高。

9、Inductive representation learning on temporal graphs

文章链接：

再进一步，Xu等人提出了暂时图留意力机制TGAT（temporal graph attention），用于建模随期间变动的图，包括可以将新的先前未见的节点与新边参与在一同时的演绎设置。其思想是基于经典和声剖析中的Bochner定理，期间维度可以用傅里叶变换的期间核来近似。期间嵌入与规范嵌入（例如节点嵌入）串联在一同，并且所有输入到自留意力模块中。

Source: Xu et al

作者将TGAT在具备单相关图（不是KG的多相关图）的规范转导与演绎GNN义务上启动了评价，TGAT显示出了很好的功能优化。团体以为，这个通常应该可以进一步裁减到支持多相关KG。

再回到传统的感应式KG嵌入设置（transductive KG embedding setup）：

— GNN？是的!— Multi-多相关？是的!— 建设相关的嵌入？是的！— 适宜常识图谱吗？是的！— 实用于节点/图形分类义务吗？是的。

10、Composition-based Multi-Relational Graph Convolutional Networks

文章链接：

Vashishth 等人提出的 CompGCN体系结构为你带来了一切这些好处。规范的图卷积网络以及信息传递框架在思索图时，通常以为边是没有类型的，并且通常不会构建边的嵌入。

常识图谱是多相关图，边的示意对链接预测义务至关关键。关于(Berlin,?,Germany) 的query，你显然是要预测capitalOf，而不是childOf。

在CompGCN中，首先会为输入的 KG 填充反相关（最近已普遍经常使用）和自循环相关（用来成功GCN的稳固性）。CompGCN驳回编码-解码方法，其中图编码器构建节点和边的示意方式，而后解码器生成某些下游义务（如链接预测或节点分类）的分数。

CompGCN intuition. Source: Vashishth et al

节点示意是经过汇集来自相邻节点的信息而取得的，这些信息对传入和传出的边（图中的Wi，Wo以及那些自循环）启动计数，其中交互函数对 (subject, predicate)启动建模。

作者尝试了加法（TransE-style），乘法（DistMult-style）和圆相关（HolE-style）的交互。在汇总节点信息之后，边的示意将经过线性层启动降级。你简直可以选用任何你青睐的解码器，作者选用的是 TransE，DistMult 和 ConvE 解码器。CompGCN在链接预测和节点分类义务方面都比R-GCN要好，并且在功能上与其余SOTA模型相当。功能最好的CompGCN是经常使用带有ConvE解码器的基于循环相关的编码器。

11、Probability Calibration for Knowledge Graph Embedding Models

文章链接：

Last, but not least，Tabacoff和Costabello思索了KGE模型的概率校准。便捷来说，假设你的模型以90％的置信度预测某个理想是正确的，则象征着该模型必定在90％的期间里都是正确的。然而，通常状况并非如此，例如，在下图中，标明TransE偏差于前往较小的概率（有点“乐观”）。

Source: Tabacoff and Costabello

作者驳回Brier评分来测量校准，驳回Platt缩放和等渗回归来优化校准评分，并提出了在没有给出“hard negatives”的典型链接预测打算中对负样本启动采样的战略。于是，你可以校准KGE模型，并确保它会前往牢靠的结果。这是一个十分好的剖析，结果标明在一些工业义务上，你可以用KGE模型来优化你对自己算法/产品的信念。

四、用GNN做实体婚配

不同的常识图谱都有他们自己的实体建模的形式，换句话说，不同的属性汇合或许只要局部堆叠，甚至URLs齐全不堆叠。例如在Wikidata中Berlin的URL是，而DBpedia中Berlin的URL是。

假设你有一个由这些异质URL组成的常识图谱，虽然它们两个都是在形容同一个实在的Berlin，但常识图谱中却会将它们视为各自独自的实体；当然你也可以编写/查找自定义映射，以显式的方式将这些URL启动婚配成对，例如放开域常识图谱中经常经常使用的owl:sameAs谓词。保养大规模常识图谱的映射疑问是一个相当繁琐的义务。以前，基于本体的对齐工具关键依赖于这种映射来定义实体之间的相似性。但如今，咱们有GNNs来智能学习这样的映射，因此只要要一个小的训练集即可。

咱们在「常识图谱@AAAI2020」的文章中简明探讨了实体婚配的疑问。而在ICLR 2020 中这方面的钻研有了新的停顿。

12、Deep Graph Matching Consensus

文章链接：

Fey 等人推出了DGMC框架（深度图婚配共识，Deep Graph Matching Consensus），这个框架包括两大阶段：

Deep Graph Matching Consensus intuition. Source: Fey et al

1）两个图，源图（Gs）和指标图（Gt），经过相反的GNN（具备相反的参数，示意为ψ_θ1）取得初始节点嵌入。而后经过乘以节点嵌入，并运行Sinkhorn归一化来取得软对应矩阵S（soft correspondences matrix S）。这里可以经常使用任何最适宜义务的GNN编码器。

2）随后将信息传递（也可以看做是图形着色）运行到邻域（标注为ψ_θ2的网络），最后计算出源节点和指标节点之间的距离（ψ_θ3），这个距离示意邻域共识。

作者对DGMC启动了宽泛的义务评价——婚配随机图、婚配指标检测义务的图，以及婚配英、汉、日、法版的DBpedia。无心思的是，DGMC在删除相关类型时，却能发生很好的结果，这说明源KG和指标KG之间基本上是繁多相关。

于是引入这样一条纳闷：假设在Hits@10咱们曾经做到90+%了，真的还须要思索一切属性类型以及限度语义吗？

13、Learning deep graph matching with channel-independent embedding and Hungarian attention

文章链接：

Yu 等人引见了他们的深度婚配框架，这个框架具备两个比拟显明的特色：聚焦在聚合边缘嵌入、引入一个新的匈牙利留意力（Hungarian attention）。匈牙利算法是处置调配疑问的经典方法，但它不是可微分的。

作者应用一个黑箱（带有匈牙利留意力）的输入来生成网络结构，而后把这个流进一步地流传。匈牙利留意力的方法，直观来了解一下：

1）初始步骤相似于DGMC，一些图编码器生成节点和边嵌入，且相似矩阵经过Sinkhorn规范化来传递；

2）不同的是，生成矩阵被前往到匈牙利黑箱（而不是像DGMC中那样传递迭代信息），从而生成团圆矩阵；

3）经过留意力机制与基准启动比拟，取得激活图，而后对其启动处置，从而取得loss。

作者仅在CV基准上启动了评价，但因为匈牙利算法的期间复杂度是O（n³），所以假设能把runtime 也放进去，或许会更幽默。

五、角色表演游戏中的常识图谱

互动小说游戏（Interactive Fiction games，例如RPG Zork文字游戏）十分幽默，尤其是你探求完环球，而后输入一段话，期待游戏反应的时刻。

14、Graph Constrained Reinforcement Learning for Natural Language Action Spaces

文章链接：

Ammanabrolu 和 Hausknecht 提出了一项无关 IF 游戏中强化学习的新上班。这个上班中经常使用了常识图谱来建模形态空间和用户交互。

Source: Ammanabrolu and Hausknecht

例如，词汇表中有数十个模板和数百个单词。尝试一切或许的陈列是无法行的。但当你保养一个可见实体的常识图谱时，agent的可选项就会大幅度缩小，于是便可以更快地推进游戏。

在他们提出的编码-解码模型 KG-A2C（Knowledge Graph Advantage Actor Critic）中，编码器驳回GRU启动文本输入，并经常使用图留意力网络构建图嵌入。此外，在解码器阶段经常使用可见对象的图遮掩（graph mask）。在基准测试中，KG-A2C可以玩28个游戏！

Soon they will play computer games better than us meatbags.

很快，电子游戏上，他们将比咱们这些菜包子们打的更好了。

6、Conclusion

目前咱们看到，常识图谱曾经越来越多地运行到 AI的各个畛域，特意是NLP畛域。

ICML 和ACL 随后也未来到，届时咱们再见。

关注微信

上一篇：除了常识图谱图还能做什么

下一篇：行业规模的知识图谱

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：https://clwxseo.com/wangluoyouhua/8199.html

一文全览上的常识图谱钻研 ICLR 2020

一、在复杂QA中应用常识图谱启动神经推理

2、Scalable Neural Methods for Reasoning With a Symbolic Knowledge Base

3、Differentiable Reasoning over a Virtual Knowledge Base

4、Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question Answering

5、Neural Symbolic Reader: Scalable Integration of Distributed and Symbolic Representations for Reading Comprehension

6、Neural Module Networks for Reasoning over Text

二、常识图谱增强的言语模型

7、Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model

三、常识图谱嵌入：循序推理和演绎推理

8、Tensor Decompositions for Temporal Knowledge Base Completion

9、Inductive representation learning on temporal graphs

10、Composition-based Multi-Relational Graph Convolutional Networks

11、Probability Calibration for Knowledge Graph Embedding Models

四、用GNN做实体婚配

12、Deep Graph Matching Consensus

13、Learning deep graph matching with channel-independent embedding and Hungarian attention

五、角色表演游戏中的常识图谱

14、Graph Constrained Reinforcement Learning for Natural Language Action Spaces

6、Conclusion

猜你喜欢

热门标签

随便看看

六种阅读器跨窗口通讯打算

对象的四种形式 JavaScript 比拟

人工智能 PyTorch深度学习框架

JavaScript5大编程言语 PHP Java Python 我该选哪个 C

数据飞轮在媒体行业的运行探求

热门资讯

阅读排行

DDD 必备架构

华为云图引擎何以煊赫一时 AI的下一个拐点

雷军想要干嘛小米颁布5款新品

Python 高低文治理器经常使用技巧四个实例

一种高效的惟一标识符

关注我们

一文全览 上的常识图谱钻研 ICLR 2020

一、在复杂QA中应用常识图谱启动神经推理

2、Scalable Neural Methods for Reasoning With a Symbolic Knowledge Base

3、Differentiable Reasoning over a Virtual Knowledge Base

4、Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question Answering

5、Neural Symbolic Reader: Scalable Integration of Distributed and Symbolic Representations for Reading Comprehension

6、Neural Module Networks for Reasoning over Text

二、常识图谱增强的言语模型

7、Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model

三、常识图谱嵌入：循序推理和演绎推理

8、Tensor Decompositions for Temporal Knowledge Base Completion

9、Inductive representation learning on temporal graphs

10、Composition-based Multi-Relational Graph Convolutional Networks

11、Probability Calibration for Knowledge Graph Embedding Models

四、用GNN做实体婚配

12、Deep Graph Matching Consensus

13、Learning deep graph matching with channel-independent embedding and Hungarian attention

五、角色表演游戏中的常识图谱

14、Graph Constrained Reinforcement Learning for Natural Language Action Spaces

6、Conclusion

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号

一文全览上的常识图谱钻研 ICLR 2020