当前位置: 首页 > 创领中心 > 网络优化

从语义网到常识图谱

  • 网络优化
  • 2024-11-15

【引子】 “海外存知己,咫尺若比邻”, 这是石头兄弟介绍给我的一篇关于语义网的综述性文章,刊载于《美国计算机学会通信》第64卷第2期——“A Reviewof the Semantic WebField”(,作者是PascalHitzler。老码农仔细研读,颇有收获,编译成文。

“语义网”(SemanticWeb)和“人工智能”一样,都指的是一个钻研畛域,而不是一个详细的产品。语义网是一个丰盛的钻研和运行畛域,自创了计算机迷信外部或临近的许多学科。有时刻,人们经常使用“语义网技术”这个术语被用来形容这一畛域中出现的一系列方法和工具,以防止术语上的混杂。语义网畛域不只在钻研和运行的方法和指标方面十分不同,而且有许多不同但又相互关联的次级社区,每个社区都或许对该畛域的历史和状况作出相当不同的叙说。

那么,语义网是一个关于什么的钻研畛域呢?答案或许是客观的,由于在这个畛域里没有明白的共识。

一种观念以为,该畛域的常年指标是创立语义网产品,以及创立、保养和运行所需的一切必要工具和方法。相关于目前大少数关键面向人类消费的网络,这里的语义网通常被想象为机器可了解的消息以及应用这些消息的服务(智能代理)来增强的互联网。这种观念可以追溯到2001年《迷信美国人》的一篇文章,可以说标志着这个畛域的降生。在这种状况下,提供机器可了解的消息是经过为数据赋予元数据来成功的。在语义网中,这些元数据通常驳回本体论的方式,或许至少是一种具备基于逻辑语义的方式言语,准许对数据的意义启动推理。假设再加上智能代理将应用这些消息的了解,会发现语义网畛域与人工智能畛域有着清楚的堆叠。理想上,在过去大少数关键的人工智能会议上,都有明白的“语义网”的印记。

另一种更近期的观念是,语义网畛域的开发方法及工具与互联网有关的运行,即使不经常使用机器可了解的数据建设智能代理,这些运行也能提供附加值。理想上,早期业界对这个畛域的兴味,旨在将语义网技术运行于消息集成和治理。从这个角度来看,可以说这个畛域是关于建设高效的(即低老本的)数据共享、发现、集成和重用的方法和工具,而互联网在这方面或许只是数据传输的工具。这种了解使它更凑近数据库,或许数据迷信的数据治理局部。

经过将语义网形容为以 W3C 规范 RDF、 OWL 和 SPARQL为外围来钻研本体论、关联数据和常识图谱的基础和运行,可以对该畛域启动限度,但实践上或许是相对准确的形容。

或许,这几个视角都有各自的好处,语义网的钻研畛域存在于它们的融合之中,本体论、关联数据、常识图谱是这个畛域的关键概念,围绕 RDF、 OWL 和SPARQL 的 W3C 规范构成了技术交流方式,它们在语法(在某种水平上是语义)层面上达成了一致;语义网畛域运行的目的是建设有效的数据共享、发现、集成和重用的方法(无论能否针对 Web) ;作为驱动力的常年愿景是在的某个时辰,将语义网建设为一个完整的基于智能代理的运行环境。

“治学先治史”,让咱们看看过去这些年语义网畛域出现的关键概念、规范和突出效果。

语义网的开展阶段

当一个钻研畛域降生时,确定任何特定的期间点当然是有争议的。但是,2001年 Berners-Lee等人在《迷信美国人》上宣布的一篇文章是一个早期的里程碑,为这一新兴畛域提供了关键的线索。而且,那是辞世纪之初,过后语义网畛域在社区规模、学术消费劲和最后的产业兴味等方面处于十分关键的回升初期。

但是,曾经有人在早期做出了致力。从2000年运转到2006年的DAML名目,指标是开发一种语义 Web 言语和相应的工具。由欧盟资助的On-To-Knowledge 名目,运转于2000-2002年,发生了 OIL 言语,起初与 DAML兼并,最终发生了网络本体言语的W3C规范。为网络数据赋予机器可读或“可了解”的元数据,这一更为普遍的想法可以追溯到互联网自身的来源。例如,早在1997年就宣布了资源形容框架(RDF)的初稿。

从21世纪初开局,可以分为三个相互堆叠的阶段,每个阶段都由一个关键概念驱动,也就是说,语义网畛域的关键焦点至少转移了两次。第一阶段是由本体论驱动的,它超越了21世纪初到21世纪中期;第二阶段是由关联数据驱动的,不时加长到21世纪10年代初。第三阶段到如今都是由常识图谱驱动的。

本体论

在21世纪的大局部期间里,这个畛域的上班都以本体论为中心,当然,这个概念有着更为新鲜的渊源。本体是共享概念化的一个正式的、明白的规范ーー虽然有人或许以为这个定义依然须要解释,但还是相当通用的。在一个更准确的意义上,本体论实践上是一个概念(即,类型或类别,如“哺乳生物”和“胎生生物”)及其相关(如“哺乳生物产下胎生生物”)的常识库,在一个基于方式逻辑的本体言语中指定。在语义网高低文中,本体是数据集成、共享和发现的关键工具,一个关键的思维是本体自身应该可以被其他人重用。

2004年,网络本体言语的OWL成为了W3C规范,为该畛域提供了进一步的燃料。OWL的外围是基于形容逻辑,也就是说,基于一阶谓词逻辑的子言语,只经常使用一元谓词和二元谓词,限度经常使用量词,设计的方式使得言语上的逻辑归结推理是可判定的。

雷同在2004年,资源形容框架(RDF)也成为了W3C规范。实质上,RDF是一种用于表白标志化并类型化的有向图的语法,它经常使用OWL指定类型及其相关的本体,而后在RDF图中经常使用这些类型,并将这些相关作为边。从这个角度来看,OWL本体可以作为RDF图的形式(或类型逻辑)。

一个用于RDF查问言语的 W3C 规范,称为 SPARQL,在2008年颁布,在2013年启动了降级,3与 OWL 愈加兼容。在RDF、OWL和SPARQL周边的其余规范曾经或正在开发,其中一些曾经取得了严重的停顿,例如,语义传感器网络本体论或来源本体论,以及SKOS 便捷常识组织系统。

经过在W3C的一切这些关键规范,与其余关键 W3C 规范之间的基本兼容性失掉了保养。例如,XML 作为RDF和OWL的语法序列化和替换格局。一切 W3C语义 Web 规范还经常使用 IRI 作为 RDF图中的标识符,并经常使用了OWL类名和数据类型标识符等。

在语义网高低文中,本体是数据集成、共享和发现的关键工具,一个关键的思维是本体自身应该可以被其他人重用。

DARPA的 DAML名目在2006年完结,随后在基础语义网钻研方面简直没有大规模的资助名目。因此,大局部相应的钻研要么转移到运行畛域,比如医疗保健或国防畛域的数据治理,要么转移到相邻的畛域。相比之下,欧盟的框架打算,特意是FP6(2002-2006)和 FP7(2007-2013),为基础和面向运行的语义网钻研提供了少量资金。在语义网钻研社区的组成中,可以看到这个社区关键是欧洲人。社区的规模难以评价,但自2000年代中期以来,该畛域的关键会议——“国内语义网会议”平均每年吸引了600多名介入者。

工业界的兴味从一开局就很大,但简直无法能形容关于工业优惠相关水平的牢靠数据。关键和较小的公司曾经介入了大规模的基础或运行钻研名目,特意是依据欧盟 FP6和7。工业界的兴味曾经扭转了钻研集团的焦点。

一些大规模的本体论(通常早于语义 Web 社区)在这个期间成熟了。例如,于1998年开局的基因本体论,如今曾经是一个十分突出的资源。另一个例子是SNOMED CT,它可以追溯到1960年,但如今曾经在OWL中齐全正式化,并宽泛用于电子肥壮记载。

正如计算机迷信钻研中经常出现的状况一样,在2005年前后,人们最后对短期取得打破性结果的希冀开局降低,开局更为沉着看待这一疑问。大少数本体论是在这一期间开发的,其方式通常是基于暂时建模的意义,作为开发本体论的方法,但尚未发生详细的结果,结果是难以保养和重用。这一点,再加受骗时开发良好的本体论所需的少量前期老本,为钻研集团转移留意力铺平了路线,这兴容许以被了解为与21世纪初剧烈的基于本体论的方法相统一。

关联数据

2006年见证了“关联数据”的降生,假设重点是在收费容许下的放开、地下和可用性,则称为“关联放开数据”。关联数据很快成为语义网钻研和运行程序的关键驱动力,并不时继续到2010年左右。

关联数据由一组RDF图组成,这些RDF图是关联的,由于图中的许多IRI标识符也出如今其余的图中,可以是多个图中。从某种意义上说,一切这些关联的RDF图汇合可以了解为一个十分大的RDF 图。

如下图所示,地下可用的关联RDF图的数量在第一个十年中在清楚增长;数据来自关联放开数据云网站,该网站并不蕴含一切RDF数据集。2年的一篇论文报道了“来自超越65万个数据文档的超越370亿个三元组”,这也只是一切可以在互联网上自在访问的RDF三元组的汇合。例如,大型数据提供者通常只提供基于SPARQL的查问接口,或许经常使用RDF启动外部数据组织,但只经过Web页面向外部提供服务。关联放开数据云中的数据集笼罩了各种各样的主题,包括天文、政府、生命迷信、言语学、媒体、迷信出版物和社交网络。

随着期间的推移,关联数据放开云中 RDF 图的数量

其中最驰名和最罕用的关联数据集是 DBpedia,这是从 Wikipedia (以及最近的Wikidata)中提取的关联数据集。2016年4月颁布的数据集包括了约600万个实体和约95亿个RDF三元组。由于其宽泛的主题笼罩(基本上是维基百科中的一切内容),而且它是最早提供的链接数据集之一,DBpedia 在关联数据放开云中施展着外围作用: 许多其余数据集都会链接到它,因此它已成为关联数据的枢纽。

从一开局,业界就对关联数据发生了浓重的兴味。例如,BBC是第一个关键的行业奉献者,纽约时报公司和Facebook是早期驳回者。但是,业界的兴味似乎关键在于应用关联数据技术启动数据集成和治理,而这些数据往往不会在放开的互联网上显示进去。

在关联数据的时代,本体论表演了一个不那么关键的角色。它们通常被用作形式,可以告知RDF数据集的外部结构,但是,相关于本体论时代的适度承诺和深度钻研,关联数据云中的RDF图中的消息是浮浅和相对便捷的。在这段期间里,人们有时会说本体论不能被重用,而且一种更便捷的方法,关键基于应用RDF 和数据集之间的链接,关于数据集成、治理和线上线下的运行程序有着更理想的作用。也正是在这个期间,基于RDF的数据组织词汇表与本体的相关并不大。

也正是在这段期间(2011年)里,schema.org 退场了。最后由Bing、 Google和雅虎推进,起初yandex也参与出去,地下了一个相对便捷的本体论体系,并倡导网站提供商经常使用schema.org的词汇表在各自的网站上注释(即链接)实体。作为报答,schema.org面前的Web 搜查引擎提供商承诺经过应用注释作为元数据来改善搜查结果。在2年,大约有超越30% 的页面经常使用了schema.org的注释。

2012年动员的另一个关键名目是Wikidata,该名目最后是德国wikimedia协会的一个名目,由谷歌、 Yandex和Allen人工智能钻研所等机构资助。Wikidata 基于与维基百科相似的想法,即众包消息。但是,维基百科提供了百科全书式的文本(以人类读者为关键消费者),Wikidata则是关于创立可用于程序或其余名目的结构化数据。例如,许多其余wikimedia包括维基百科,经常使用Wikidata提供一些消息,而后出现给人类读者。Wikidata曾经领有了超越6600万个的数据项,自名目启动以来曾经启动了超越10亿次的编辑,并且有超越20000个生动用户。

在21世纪10年代早期,关联数据的最后炒作开局让位于一种更为沉着的观念。虽然关联数据确实有一些突出的用途和运行,但结果标明,集成和应用关联数据须要比最后的预期付出更多的致力。可以说,用于关联数据的艰深的非表白性形式似乎是可重用性的一个关键阻碍,最后希冀数据集之间的相互咨询会以某种方式解释这一弱点,但似乎并没有成功。这不应被了解为丑化了链接数据给该畛域及其运行带来的严重停顿:仅仅以某种结构化的格局提供数据,遵照一个突出的规范,就象征着可以经常使用现有工具访问、集成和治理数据,而后启动应用。这比以语法和概念上愈加异构的方式提供数据要容易得多。但是,寻求更有效的数据共享、发现、集成和重用的方法当然和以往一样关键,而且正在开局。

常识图谱

2012年,当谷歌推出它的常识图谱时,一个新的术语出现了。例如,可以经过在 google 网站上搜查出名实体来检查 Google常识图谱的局部内容:在链接到网页的搜查结果旁边显示一个所谓的消息框,显示来自Google常识图谱的消息。下图给出了这种消息框的一个例子,搜查 Kofi Annan就可以找到这个例子。人们可以经过追随一个超链接从这个节点导航到图谱中的其余节点,例如,到 Nane Maria Annan,她与 Kofi Annan节点有配偶相关。在这个链接之后,Nane Maria Annan 的一个新的消息框被显示在同一个词的搜查结果旁边。

在 google 上搜查“ Kofi Annan”后的 Google常识图谱节点

虽然 Google 没有提供可下载的常识图谱,但它提供了内容访问的API,这个API经常使用规范的schema.org类型,并且满足JSON-LD格局,这实践上是W3C RDF 规范化的另一种语法。

但是,思索到语义网技术的历史,特意是之前讨论过的关联数据和本体论,常识图谱好像是一种间接来自语义网畛域的新设想,关注的重点出现了清楚转变。

其中一个不同之处在于放开性:正如关联放开数据这个术语从一开局就暗示的那样,语义网社区的关联数据上班大多以放开共享数据为其指标之一,这象征着关联数据大多可以收费下载,或许由支持SPARQL的服务提供,并且关键的是在社区中经常使用非限度性容许。wikidata作为一个常识图谱也是放开共享的。相比之下,围绕常识图谱的优惠往往是由行业主导的,而关键的运行并不是真正放开的。

另一个区别是集中控制与自下而上的社区奉献:在某种意义上,关联数据云是目前已知最大的现有常识图谱,但它不是一个繁复的实体。雷同,它由松懈且相互关联的单个子图组成,每个子图都由它自己的结构、示意形式等控制。相比之下,常识图谱通常被了解为更具外局部歧性和更严厉控制的组件服务。因此,关于没有严厉品质控制的外部图表的价值遭到质疑,而内容和/或基础形式的品质遭到更多关注。

最大的区别或许是从学术钻研到工业运行的转变。因此,围绕常识图谱的优惠是由弱小的工业用例及可感知的附加价值推进的,没有地下的正式评价。

语义网与其余畛域和学科的相关

与机器学习那样的其余畛域不同,语义网畛域关键不是由该畛域固有的某些方法驱动的。雷同,它是由一个独特的愿景驱动的,因此,它依据须要自创了其余学科。

例如,语义网畛域作为人工智能的一个子学科,与常识的示意有着亲密的相关,由于常识图谱和本体论来示意言语可以被了解,而且与常识示意的言语亲密相关,形容逻辑作为撑持网络本体言语OWL的逻辑学,施展着外围作用。语义网的运行需求也推进或启示了形容逻辑的钻研,以及对不同常识示意方法(如规定和形容逻辑)之间桥接的钻研。

数据库畛域显然是亲密相关的,如(元)数据治理和图的结构化数据有一个人造的家园,也是关键的语义网畛域。但是,语义网钻研的重点关键集中在异构数据源的概念集成上;,例如,如何克制不同的数据组织方式;在大数据术语中,语义网的重点关键是数据的多样性。

人造言语处置作为一种运行工具,在常识图谱和本体集成、人造言语查问应对、文本常识图谱或本体结构等方面施展着关键作用。

机器学习,特意是深度学习,正在改良语义网高低文中艰巨义务的处置才干,例如常识图谱补全,数据荡涤等等。与此同时,语义网技术正在钻研提高人工智能的可解释性。

在网络物理系统和物联网的某些方面也正在钻研经常使用语义网技术,例如,在智能制作(工业4.0)、智能动力网和智能修建等等。

生命迷信的一些畛域受益于语义网技术曾经有相当长的历史了,例如,前面提到的 SNOMED-CT和基因本体论。普通来说,生物医学畛域是语义网概念的早期驳回者。另一个突出的例子是由语义网技术驱动的ICD开发。

语义网技术其余潜在的运行畛域可以是任何须要数据共享、发现、集成和重用的场景,例如在地球迷信或数字人文学科。

语义网的未来

毫无不懂,语义网畛域的宏伟指标尚未成功,无论是将语义网作为一个产品来创立,还是为数据共享、发现、集成和重用提供处置打算,使其变得齐全容易和轻松。正如关于常识图谱、schema.org和生命迷信本体论的讨论所证实的那样,这并不象征着两边结果没有实践用途。

但是,为了向更大的指标行进,简直每一个子畛域的语义网都须要进一步的开展。例如,工业常识图谱,本体婚配,消息抽取等等。与其重复些清单,不如让把重点放在的短期关键阻碍的应战上。

在语义网社区及其运行社区中,关于如何有效的处置数据治理疑问有着丰盛的软硬常识。但是,刚刚驳回语义网技术的人们经常发现自己面临着一种不谐和的声响,面对不同方法的采购,但简直没有关于这些不同方法的利害引见。还有那些工具包,从不适宜通常的毛糙原型到针对特定子疑问而精心设计的软件,但雷同没有什么指点,究竟哪种工具,哪种方法,将最有助于用户成功自己的特定指标。

因此,在这个阶段,语义网畛域最须要的或许是整合。作为一个固有的运行驱动畛域,这种兼并会在其各个子畛域启动,从而构成面向运行的流程,这些流程的指标和优缺陷都有详细的文档记载,同时还有易于经常使用和支持整个流程的集成工具。一些驰名的盛行软件,如OWLAPI,Wikidata的底层引擎Wikibase,或许ELK推理机,都是弱小且十分有协助的,但是在某些状况下,虽然它们都经常使用了 RDF 和 OWL启动序列化,依然不能轻松地相互协作。

谁或许是这种整合的驱动力呢?

关于学术界而言,开发并保养稳固易用软件的动机往往有限,由于学术效果(关键以出版物和取得的外部资金总额权衡)往往与这些优惠不相符。编写高品质的入门教科书是十分耗时且报答很少的学术效果。但是,经过开发各种范式之间的桥梁处置打算,以及经过与运行畛域协作开发和成功用例,学术界确实为整合提供了一个基础。

在工业界,各种各样的整合曾经出现,初创企业和跨国公司驳回语义网技术就是明证。但是,不论是技术细节还是其外部驳回的软件,通常是不共享的,大略都是为了包全自己的竞争好处。假设确实如此,那么相应的软件处置打算变得遍及将只是期间的疑问。

小结

在语义网存在的第一个近20年里,语义网畛域曾经发生了丰盛的关于数据共享、发现、集成和重用的高效数据治理的常识。经过语义网的运行,可以很好的了解这个畛域的关键奉献,包括Schema.org,工业常识图谱,Wikidata,本体建模运行等。这些运行面前的关键迷信发现是什么呢?但是,这个疑问更难回答。语义网的提高须要许多计算机迷信子畛域的奉献,而其中一个关键义务就是如何将这些奉献整合起来,以便提供实用的处置打算。从这个意义上说,这些运行展现了整个畛域的关键停顿。

干流工业界正在驳回语义网技术,但是,寻求更有效的数据治理处置打算远远没有完结,依然是该畛域的驱动力。

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://clwxseo.com/wangluoyouhua/8167.html

猜你喜欢

热门资讯

关注我们

微信公众号