当前位置：首页 > 创领中心 > 网络优化

常识图谱不复杂我来帮你理一理！

网络优化
2024-11-15

【.com原创稿件】随着互联网业务的开展，发生了少量的数据，数据经过剖析会推进业务的开展。将数据中包括的常识用图的结构表示进去，就构成了常识图谱。

图片来自 Pexels

常识图谱可以运行到智能搜查，智能文档，介绍，决策允许等畛域。例如：WordNet，Freebase，Wikidata。

当天和大家一同了解常识图谱构建的方法和基本原理。

常识图谱是一个较大的话题。从开展，特点，分类和生命周期等不同的方面都有很多须要讲的物品。

常识畛域示用意

这里咱们关键从常识图谱的生命周期作为切入点，讲讲在其构成和经常使用环节中用到的原理和方法。

①常识体系构建。 依据分类，可以把常识图谱分为通用型和畛域型。无论是什么类型的常识图谱都须要对其服务的畛域启动常识建模。也就是说，驳回什么样的方式来表白常识。

②常识融合。 一个常识库可以和其余常识库启动融合。在不同畛域常识图库启动融合时，会发现来自不同畛域，不同言语，甚至不同结构的常识须要做“补充，降级和去重的操作”。

这就是常识融合，普通分为：常识体系融合和实例融合。这局部的操作也可以在构建常识体系的时刻兼顾思索。

③常识失掉。 常识失掉的目的是从海量的信息(文本)中抽取常识。本文中提到的“失掉信息”多为文本信息，因此这里的“失掉信息”也是从文本中失掉信息的环节。

失掉信息结构上划分为三类，区分是结构化信息，半结构化信息和非结构化信息。

从失掉信息内容上又分为，实体识别，实体消歧，相关抽取和事情抽取。常识存储在成功了常识抽取和融合之后，就须要将常识存储上去了。

有 RDF(Resource Description Framework，资源形容框架)格局和图数据库两种方式。

由于图数据库关于查问友好，因此被宽泛经常使用，例如：Neo4j。

④常识推理。 识别并抽取常识以及存储常识，咱们会试图开掘实体(常识)之间隐含的语义相关。

这个环节就是常识推理。例如：已知 A 是 B 的儿子，又知道 B 是 C 的儿子。那么可以推理出 A 是 C 的孙子。

⑤常识运行。 识别，抽取，存储和推理的最终目的还是为了运行。常识图谱在搜查，问答，介绍，决策方面被宽泛运行。

前面会将上述环节开展解说，由于常识图谱中包括的内容比拟丰盛，因此会着重引见前面几个局部的内容，关于常识推理和常识运行的局部会放到的文章中引见。

咱们常说的常识是人类对理想环球的意识，如何将这种意识转化为一种规范的方式呢?因此，须要有一种模型，对其启动形容，从而能够存储到计算机中。

常识图谱的表示方式有多种，有语义网络，框架，脚本。经常使用比拟多的是语义网络模型。

它是经过语义相关衔接的概念网络，将常识表示为相互衔接的点和边。其中，节点表示为实体，期间，值等信息;边表示实体之间的相关。

例如：马是一种生物，可以表示为如下：

这里的马和生物表示为实体，“是一种”表示它们之间的相关。这也是咱们常说的三元组的体现方式。

用 RDF(Resource Description Framework，资源形容框架)可以表述为：

针对相关来说有多种类型的定义：

假设将实体经过上述形容，用三元组的方式表示进去，就构成了常识的图状结构，咱们把这种结构的体现就叫做常识体现。

常识图谱的体现方式

上方讲了常识表示，经过三元组表示理想环球的常识。由于常识畛域的不同，对事物的概念和定义也会不相反。

例如：“运维”这个词，在软件畛域是指对软件的运转保养;在基础设备畛域，是指对供配电，空调的运转和保养。

因此，常识图谱是针对详细常识畛域而言的。须要依据详细的常识畛域，启动“常识体系构建”。

常识体系关键包括三个方面的外围内容：对概念的分类，概念属性的形容以及概念之间相互相关的定义。

常识畛域示用意

常识畛域(常识体系结构)就如同常识图谱的框架，它定义了常识的概念，概念的属性以及概念之间的相关。

只要先定义了它，才干再构建常识图谱。假设把常识畛域(常识体系结构)了解成 Class 的话，常识图谱就是 Object;假设把常识畛域(常识体系结构)了解成骨架的话，常识图谱就是肉体。

Ontology 对常识启动定义(Concept)，依据定义生成实体(Instance)

骨架和肉体

说完常识畛域(常识体系结构)的概念，再来看看经过人工构建须要哪几个步骤。

①确定畛域以及义务。 这里须要明白几个疑问，为什么须要这个畛域的常识图谱?其中包括哪些常识?它所服务的人群?以及谁来保养它?

②常识体系整合。 由于常识图谱，须要包括海量的常识数据，所以从 0 开局树立老本很高。

因此，须要借助通用常识图谱，畛域词典，言语学资源，开源常识图谱的资源。在它们的基础上树立，大大降低老本。

③列举因素。 针对要树立的常识图谱，列出这个畛域常识的概念，属性，以及相关等因素。

例如：树立一团体物常识图谱，就要列出迷信家，演员，教员，静止员等概念分类。

针对每个分类，定义姓名，年龄，国籍，出世地等属性。以及父母，子女，好友等相关。

④确定分类体系。 就是概念之间的层级相关，相似树状结构。例如体育分类，上方包括体育组织，体育赛事，体育院校等等。可以经过由上至下，或许由下至上的方式树立。

分类体系示用意

⑤定义属性以及相关。 这里的属性和相关的定义具备承袭性。例如：演艺人员领有“年龄”，“毕业院校”，“经纪公司”等属性。演艺人员分类上方包括了歌手和演员。

那么歌手和演员的属性中，除了包括“年龄”，“毕业院校”，“经纪公司”等属性以外，还或许包括其余属性，例如：歌手包括“低/中/高音“;演员包括：”国际/国际影星“。

⑥定义解放。 针对上方属性相关的解放相关。例如：年龄为正整数。每团体只要一个母亲(生理学意义上的)。

各个畛域常识图谱的构建，造成存在各个垂直畛域的常识库。每个常识库为了扩展自身的广度和深度，就须要和其余库做融合。

常识融合示例图

常识库的融合有两种形式：

常识体系能够在认知和语义档次上对畛域常识启动建模和表白，确定畛域内独特认可的词汇，经过概念之间的相关来形容概念的语义，提供对畛域常识的独特了解。

多个常识体系在融合环节中会发生堆叠，会发生许多不同的常识体系。这些不同的常识体系会造成不同的常识图谱难以联结经常使用。

因此，上方要引见几种融合的方法：

定义了常识畛域和畛域之间的融合，就搭建了常识图谱的框架，接上去就要填充内容了。依据三元组通常，常识图谱是由(实体 1，相关，实体 2)组成的。

所以，接上去就要引见常识失掉，它包括实体识别，实体消歧，相关抽取，事情抽取。

常识失掉示用意

实体(Entity)是常识图谱的基本单元，也是本文中承载信息的关键言语单位。实体识别是抽取文本中命名性指称项。

例如：红利小学篮球教练张平缺席了会议，他在会议上分享了执教心得。

实体“张平”就有三个指称项，“红利小学篮球教练”是名词性指称项;“张平”是命名性指称项;“他”是代词性指称项。

实体识别抽取有以下几种方法：

①基于规定的方法，经过树立命名实体词典的方法，每次抽取都从文本中查找词典的内容。

②基于特色的方法，经过机器学习的方法应用预先标注好的语料训练模型，使模型学习到某个字或许词作为命名实体组成局部的概率，计算出一个候选字段作为命名实体的概率值。假设大于某个设定的阀值，就抽取命名实体。

③基于神经网络的方法：

实体识别成功，咱们遇到一些疑问。两个实体名字如出一辙，但在不同的语境上方，表白的内容齐全不同。

例如：实体指称项，迈克尔·乔丹(Michael Jordan)在不同的文本中，有或许是篮球明星，也有或许是一位机器学习的钻研员。

实体消歧示例图

在引见如何启动实体消歧之前，先引见几个相关概念，以上图为例：

那么如何消弭这种歧义呢?这里有两种歧义消弭系统介绍。

聚类的消歧系统：将同一实体指称项调配到同一类别上方，聚类结果中每个类别对应一个指标实体。

聚类示用意

实体链接的消歧系统：将实体指称项与指标实体列表中对应的实体启动衔接成功消歧。

实体链接示用意

上方可以将文本中的实体抽取进去，并且消弭它们之间的歧义。接上去，要知道实体之间的相关，就须要用到相关抽取。

相关抽取就是，识别实体之间的语义相关。可以分为二元相关抽取(两个实体)和多元相关抽取(三个及以上实体)。通常表示为(实体 1, 相关, 实体 2)三元组。

依据处置数据源的不同，相关抽取可以分为以下三种：

依据抽取文本的范围不同，相关抽取可以分为以下两种：

依据所抽取畛域的划分，相关抽取又可以分为以下两种：

由于篇幅相关，这里对详细相关抽取的方法不开展形容。有兴味可以自行查找，每个算法都可以独自成为一篇文章。这里咱们只要要对相关抽取的分类和方法有基本意识就好。

和相关抽取相似，事情抽取是从文本中抽取出事情并以结构化的方式出现进去。

首先识别事情及其类型，其次识别出事情所触及的实体，最后须要确定实体在事情中表演的角色。

经过一个例子，来引见几个概念。例如：“小明和小红于 2019 年 12 月 30 日在北京举办婚礼。”

事情指称：详细事情的人造言语形容，通常是一个句子或句群。就是上方这句话的形容。

事情触发词：代表事情出现的词，是选择事情类别的特色，普通是动词或名词。例如：“举办婚礼”。

事情元素：事情中的介入者，关键由实体、期间和属性值组成。例如：“小明”，“小红”， “2019 年 12 月 30 日”。

事情元素类型

元素角色：事情元素在事情中表演的角色。例如：“小明”与“小红”表演的是“夫妻角色”。

事情类别：事情元素和触发词选择了事情的类别，每个分类上方还有子分类。例如：生命，结婚。

事情类型示用意

事情抽取的方法比拟多，基本上分为限定域事情抽取和放开域事情抽取两大类。

在两类中又分为若干小类。这里针对限定域中给予形式婚配的方法给大家做便捷引见。

限定域事情抽取：在启动抽取之前，预先定义好指标事情的类型及每种类型的详细结构(包括哪些详细的事情元素)，通常会给出必定数量的标注数据。经过这些标注数据疏导事情的抽取。

比拟有代表的是基于形式婚配的方法，首先经过人工标注语料，再经过学习模型来抽取形式，最后将“待抽取文档”与形式库中的形式启动婚配，生成抽取结果。

事情抽取，婚配流程图

另外，关于事情抽取的方法和相关还有很多，这里不开展形容，放出思想导图供大家参考。

事情抽取思想导图

前面提到了常识图谱的架构，常识的抽取，接上去就须要将这些常识(数据)存储上去。并且可以将存储的数据启动检索。

常识存储示用意

谈到存储，须要回到前面说的三元组。常识图谱中的常识是经过 RDF(Resource Description Framework，资源形容框架)构成的。

每个理想被表示为一个形如(subject，predicate，object)的三元组：

常识图谱的表寄存方式有两种，区分是三元组表，类型表。来看看前两种存储的方式。例如：有下图相关。

常识图谱存储示例图

用三元组方式存储：

用类型表存储：

图数据库基于有向图，其通常基础是图论。节点、边和属性是图数据库的外围概念。

节点，用于表示实体、事情等对象，可以类比于相关数据库中的记载。例如人物、地点、电影等都可以作为图中的节点。

边，是指图中衔接节点的有向线条，用于表示不同节点之间的相关。例如：夫妻相关、共事相关等。

属性，用于形容节点或许边的个性。例如：姓名、夫妻相关的起止期间等。

来看个例子：

用节点表示实体：刘德华、刘青云、Film：暗战。

用边表示实体间的相关：刘德华和暗战之间的参演相关、刘德华和刘青云之间的好友相关等。

节点可以定义属性：刘德华性别男、身高 174cm、出世地香港等。

边上也可以定义属性：刘德华参演暗战的期间是 1999 年，参演角色是张彼得等。

无向相关须要转化为两条对称的有向相关：刘德华和刘青云之间互为好友相关。

上方说了依照表方式和图方式的存储，再来看看存储之后如何检索常识信息。常识图谱信息可以经过 SQL 和 SPARQL 搜查来取得。

这里着重引见 SPARQL，它是 Simple Protocol and RDF Query Language 的缩写，是由 W3C 为 RDF 数据开发的一种查问言语和数据失掉协定，被图数据库宽泛允许。

和 SQL 相似，SPARQL 也是一种结构化的查问言语，用于对数据的失掉与治理。

①数据拔出

INSERT>

②数据删除

DELETE target="_blank">

删除刘德华参演电影的相关

假构想删除一切刘德华对应节点的相关，用如下语句。

这里的 s，p，o 区分对应的是 subject，predicate 和 object。这样和刘德华这个节点的相关信息都删除了。然而刘青云和暗战对应的节点和相照顾旧存在。

删除刘德华节点以及对应的相关

③查问语句

和上方两个语句相似，例如要查问身高为 174cm 的男演员。

得出的结果就是“s：刘德华”。

假设说常识图谱自身就是一个常识的数据库，那么常识畛域(常识体系结构)就是这个数据库的框架。

在树立常识图谱之前咱们须要对常识体系启动搭建，同时要处置常识融合的疑问。

有了常识体系结构，就可以启动常识失掉，这里包括实体识别，实体消岐，相关抽取和事情抽取。

实体识别有基于规定，特色和神经网络的识别方法。实体消岐可以经过聚类和实体衔接的方法搞定。

相关抽取和事情抽取，依据数据源，文本范围和畛域划分的不同，方法各有所长。常识抽取须要做常识的存储，其中有表存储和图存储两种方式。

目前比拟盛行的是图存储的方式。并且基于图存储的方式，还提供了 SPARQL 查问言语对数据启动治理。

PS：常识图谱的内容比拟博大，本文只是对最基本的概念启动了形容。很多观念来自于赵军教员的常识图谱一书。假设须要深化了解，倡导浏览。

作者：崔皓

简介：十六年开发和架构阅历，曾负责过惠普武汉交付中心技术专家，需求剖析师，名目经理，后在守业公司负责技术/产品经理。擅长学习，乐于分享。目前专一于技术架构与研发治理。

关注微信

上一篇：行业规模的知识图谱

下一篇：赋能金融业务翻新基于自研图数据库的常识图谱落地通常

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：https://clwxseo.com/wangluoyouhua/8201.html

常识图谱不复杂我来帮你理一理！

猜你喜欢

热门标签

随便看看

六种阅读器跨窗口通讯打算

对象的四种形式 JavaScript 比拟

人工智能 PyTorch深度学习框架

JavaScript5大编程言语 PHP Java Python 我该选哪个 C

数据飞轮在媒体行业的运行探求

热门资讯

阅读排行

IEEE

Transformer 神经网络模型一文读懂

微软或成最大赢家 Python再获年度编程言语

ChatGPT会取代搜查引擎吗

无界AI算法总监邹国平 Midjourney领跑下半场还能怎样卷没有规范答案的文生图

关注我们

常识图谱不复杂 我来帮你理一理！

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号

常识图谱不复杂我来帮你理一理！