【引子】
本文是石头兄弟介绍的一篇关于知识图谱综述性文章,老码对去年ACM上的这篇“Industry-Scale Knowledge Graphs: Lessonsand Challenges”,Communications of the ACM, August 2019, Vol. 62 No. 8, Pages36-43, 10.1145/3331166 启动了翻译整顿。原文作者是Natasha Noy(Google), Yuqing Gao(MicroSoft),Anshu Jain(IBM), Anant Narayanan(Facebook), Alan Patterson(eBay)和JamieTaylor(Google)。为了缓解浏览的单调,装点了一些景色图片。
如今,知识图谱对许多企业来说至关关键——它们提供了却构化数据和理想知识,以这些数据和知识驱动了许多产品,使它们愈加智能化甚至“神奇”。
普通来说,知识图谱形容了感兴味的对象和它们之间的咨询。例如,知识图谱中或许蕴含电影节点、电影中的演员、导演等等。每个节点或许具有诸如介入者的称号和年龄等属性,或许存在触及特定演员的多部电影的节点。而后,用户可以遍历知识图表,搜集演员出现的一切电影的消息,假设适用的话,也可以搜集导演的消息。
许多知识图谱的实践成功打算经过定义形式或本体对图谱中的链接施加解放。例如,从电影到其导演的链接必定将 Movie 类型的对象衔接到 Person类型的对象。在某些状况下,链接自身或许具有自己的属性,例如衔接演员和电影的链接或许具有演员所表演的特定角色的称号。雷同,将政治家与政府中的特定角色咨询起来的链接或许蕴含政治家负责这一角色的时期期限。
本文调查了五个不同的科技公司的知识图谱,比拟了他们各自树立图谱和经常使用阅历的异同,并探讨了当今一切知识驱动型企业面临的应战。这里探讨的知识图谱集合涵盖了从搜查、产品形容到社交网络的宽泛运行:
这里的指标不是详尽地形容这些知识图谱,而是应用作者在当今一些大型科技公司中构建知识图谱的通常阅历,作为任何企业级知识图谱所面临的应战以及须要启动一些翻新钻研的支点。
什么是知识图谱? ——设计上的决策
让咱们从形容五个知识图谱和每个设计中的决策开局,并确定每个图谱的范围。虽然许多应战是一切企业共同面临的,但是,每个运行程序和产品指标的不同造成了不同的方法和系统架构,附表总结了这些知识图谱的性质。
多年以来,微软的工程师和迷信家不时努力于大规模图谱的钻研。这项上班包括依据基础钻研来构建端到端系统,以及为数亿用户提供环球规模的服务。在整个公司,有几个关键的图谱系统,每一个都带来了围绕创立图谱和最新的详细应战。许多不同的产品都可以经常使用知识图谱为消费者带来价值。以下是微软的一些图谱:
当必应搜查引擎在必应知识图谱中有额外的有用消息时,显示一个知识面板。例如,搜查电影导演詹姆斯 ·卡梅隆可以找到他的出世日期、身高、他导演的电影和电视节目、他以前的恋人、他做过的 TED 演讲、 Reddit上的“问我任何事”疑问和答案等消息。搜查不同类型的实体会前往齐全不同的消息,例如,搜查“ Woodblock餐厅”会失掉菜单摘要、专业评论和用户评论,以及预订表格选项。
一切这些图谱系统以及任何一个大型知识图谱系统,都或许会无关于品质和有用性的三个关键的选择起因:
完备性
正确性
及时性
内容是最新的吗?它或许曾经是正确的,但实践上曾经过时了。关于那些简直不时变动的物品(股票多少钱),与那些变动很少的物品(一个国度的首都)相比,及时性会有所不同,其间夹杂着许多不同类型的消息。
为了生成关于环球的知识,数据有多个来源,这或许是十分喧闹和矛盾的,必定整顿成一个繁多、分歧且准确的图谱。用户看到的最后一个理想只是冰山的一角,上方暗藏着少量的上班和复杂性。例如,仅在维基百科上就有200个威尔· 史密斯,演员威尔 · 史密斯的必应知识结果是由41个网站上的108,000个理想组成的。
知识图谱具有弱小的初级人工智能,从搜查到对话,准许将单个查问变成一个继续的对话。详细来说,这准许用户与系统启动对话,并让系统在对话的每一轮中保养高低文。例如,在未来的一个场景中,用户可以对必应说,“给我看看环球上如今温度超越华氏70度的一切国度。”一旦系统前往答案,用户还可以说,“给我看看两个小时航行之内的那些国度。”
咱们可以将雷同的想法进一步推行,从而取得完整的对话体验。例如,用户可以说,“我想在感恩节前两天到纽约市游览,并在那里逗留一周”,系统会经常使用基础知识图谱来了解查问,而后恳求那些缺失的消息片段。在这个例子中,系统须要知道“ NYC”或许象征着“ JFK 机场”,而感恩节是11月22日。而后,它必定知道如何启动航班搜查,这须要一个终点和目的地位置。而后,系统必定知道对话的下一轮必定确定登程地点,所以它会说,“好的,预订11月20日至27日飞往肯尼迪机场的航班。你从哪里飞上来?”
Google的知识图谱数据库有超越700亿的断言形容了10亿个实体,涵盖了宽泛的主题,是十多年来不同集体数据优惠奉献的结果,他们中的大少数都从未有过知识治理系统的阅历。
或许,更关键的是,知识图谱作为一个常年稳固的类和实体标识的来源,许多Google的产品和性能在幕后经常使用它。外部用户和开发人员在经常使用 YouTube 和Google Cloud api等服务时可以观察到这些特性。这种对身份的关注使得Google的搜查结果转变为“事物而不是字符串”,知识图谱不是繁难地前往传统的“10个蓝色链接”,而是协助谷歌产品将用户的恳求解释为对用户环球中概念的援用,并作出适当的照应。
Google的知识图谱运行中或许最可见的是,当用户收回关于实体的查问时,搜查结果包括了知识图谱服务中的一系列理想实体。例如,对“I.M.Pei”的查问会在搜查结果中发生一个小面板,其中有蕴含关于修建师的教育、奖项和他设计的关键结构的消息。
知识图谱还意识到,某些类型的交互可以出当初不同的实体上。对“ The Russian Tea Room”的查问提供了一个按钮来预订,而对“ RitaOra”的查问则提供了各种音乐服务的链接。
在Google知识图谱的范围内,一团体无法记住整个图谱中经常使用的详细结构,更不用说治理了。为了确保系统随着时期的推移坚持分歧,Google依据一组基本的底层结构构建了自己的知识图谱。它在不同的形象档次上复制了相似的结构和推理机制,从概念上疏导了许多基本断言的结构。例如,为了审核特定的不变式结构,Google应用了“类型自身就是类型的实例”这一思维来引入元类型的概念。而后,它可以推理元类型,以验证细粒度类型能否违犯了它感兴味的不变量。证实了独立于时期的恒等式不是结构的子类,而是依赖于时期的。由于这种可伸缩的形象级别基于相反的低级附加,所以相对容易地以开箱即用的方式来参与。
在稍高的概念层面上,知识图谱“了解”作者与他们的发明性作品是不同的,即使这些实体经常在书面语表白中被一概而论。雷同,发明性作品或许有多种表白方式,而这些表白方式自身又是一模一样的。随着图谱的增长,这种本体论知识有助于保养实体的身份。
经过这些自形容层构建的知识图谱,不只简化了机器的分歧性审核,而且使外部用户更容易了解知识图谱。一旦新的开发人员接受了知识图谱组织的基础知识培训,他们就可以了解其结构清单的所有内容。相似地,经过将图谱结构与一些外围准则绑定在一同,并在形式中明白地提醒元相关,为外部开发人员简化了查找和了解新形式结构的环节。
Facebook 以领有环球上最大的社交网络而知名。在过去的十年中,Facebook的工程师们曾经开收回了能够成功人与人之间丰盛咨询的技术。如今,他们正在运行雷同的技术,不只对人们,而且对人们关心的事情树立了更深入的了解。
经过以一种结构化的方式和规模来模拟环球,Facebook的工程师们能够解开社交图谱自身无法满足的用例。即使是看起来很繁难的事情,比如对音乐和歌词的结构性了解,再加上能够检测人们何时在软件中经常使用它们,能够让人们在团体之间发生有异常收获的时辰。当天,Facebook产品中的许多阅历,例如协助人们在 Messenger 上布局电影放映,都是由知识图谱驱动的。
Facebook 知识图谱关注的是最具社会相关性的实体,比如那些最常被用户探讨的实体: 名人、地点、电影和音乐。随着 Facebook知识图谱的不时增长,开发者们开局关注那些最有或许提供适用性和用户体验愉悦的畛域。
笼罩范围、正确性、结构化和不时的变动都驱动着 Facebook 知识图谱的设计:
Facebook 页面是十分地下的,每天都有数以百万计的人与之互动。因此,页面一切者的兴味并不总是与知识图谱的需求坚持分歧。
最经常出现的是,页面和实体没有严厉的1:1映射,由于页面可以示意实体的集合(例如,电影特许运营权)。数据也或许是不完整的或非结构化的(文本块),这使得它更难在知识图谱的高低文中经常使用。
Facebook 最大的应战是应用其页面上的数据,并将其与其余愈加结构化的数据源结合起来,以成功一个洁净、结构化知识图谱的指标。关于 Facebook来说,一个有用的工具就是把图谱看作一个模型,把 Facebook 页面看作是图谱中一个实体或一系列实体的视图投影。
eBay正在构建自己的产品知识图谱,这个图谱将对产品、实体及其相互相关和外部环球的语义知识启动编码。这些知识关于了解卖家提供的产品和买家寻觅的产品以及理智地将两者咨询起来是十分关键的,而这正是eBay 营销技术的关键局部。
例如,eBay的知识图谱可以将产品与理想环球中的实体咨询起来,定义产品的身份以及为什么它对买家或许有价值。一件芝加哥公牛队的篮球静止衫是一个产品,但假设它是由迈克尔乔丹签过名,它就是一个十分不同的产品。1940年巴黎的明信片或许只是一张明信片;但假设知道巴黎在法国,而1940年是二战时期,就齐全扭转了产品性质。
知识图谱中的实体也可以将产品相互关联。假设用户搜查梅西的纪念品,图谱会显示梅西效能于巴塞罗那足球俱乐部,那么,兴许,该俱乐部的商品也很无心思。兴许其余驰名的巴塞罗那球员的纪念品会惹起这位购物者的兴味。相关商品应该包括以足球为基础的产品,如有签名的衬衫、条带、靴子和足球。这种思维可以从体育加长到音乐、电影、文学、历史事情等等。
与实体相关雷同关键的是了解产品自身及其相关。知道一个产品是 iPhone,另一个是 iPhone的外壳显然是很关键的。但是,这种状况下或许适宜一些手机,而不是其余品类,所以eBay须要产品型号的整机和硬件尺寸。了解产品的许多变体和相关也很关键:哪些产品是一种产品的制作商变体?它们有不同的大小、容量或色彩吗?哪些是相反的意思?是他们有相反的规格,但或许不同的品牌或色彩?该系统还须要了解那些组合在一同的产品,比如捆绑包、工具包,甚至是古装。
与其余知识图表一样,eBay必定处置规模性疑问。在任何时刻都或许有超越10亿的生动产品散布在不可胜数个类别中。这些列表或许包括数亿个产品和为这些产品指定的数百亿个属性。
eBay知识图谱有几个不同的用户,这些用户有十分不同的服务级别需求。当搜查服务须要了解用户的查问时,知识图谱必定支持须要毫秒级的答案。而在规模化的另一端,大型图谱的查问或许须要数小时才干运转完。
为了应答这些应战,eBay的工程师设计了一个架构,提供灵敏性的同时确保数据的分歧性。知识图谱经常使用一个复制的日志对图谱启动一切的写入和编辑。日志提供了数据的分歧有序视图。此方法支持满足不同用例的多个后端数据存储。详细来说,有一个用于提供低提前搜查查问的扁平文档存储和一个用于启动长时期运转图谱剖析的图存储。这些存储中的每一个都只是将其操作附加到写日志中,并以保障的顺序将参与和编辑参与到图谱中。因此,每个商店将是分歧的。
IBM 开发了知识图谱框架,Watson Discovery Services 经常使用该框架并提供相关服务,这些服务曾经部署在 IBM以外的许多行业性能中。IBM Watson 以两种不同的方式经常使用知识图谱框架: 第一,该框架直接支持 WatsonDiscovery,它关注于经常使用结构化和非结构化的知识来发现新的、不显著的消息,以及发现之上的相关垂直产品;第二,该框架准许其他人以预先构建的知识图谱为外围构建自己的知识图谱。
Discovery用例创立了畛域文档或数据源中不直接显示的新知识。这种新知识或许是令人惊讶和失常的。虽然搜查和检测工具可以失掉系统现有资源中已有的知识,但这些工具关于Discovery来说是必要的,但还不够。不显著的发现包括实体之间的新咨询(例如,药物的新反作用、作为收买指标的新兴公司或开售线索)、畛域中潜在新的关键实体(例如,显示技术的新资料、特定投资畛域的新投资者),或扭转现有实体的关键性(投资者在一个组织中持有越来越多的股份,或在情报搜集场景中参与利益相关者与某些立功分子之间的互动)。
思索到 IBM 在各个畛域运行认知技术中宽泛的企业客户基础,IBM 专一于为客户和客户团队创立一个框架,以构建他们自己的知识图谱。IBM的行业团队应用这个框架来构建特定畛域的实例。客户触及多个畛域,从以消费者为导向的银行和金融、保险、 IT服务、媒体和文娱、批发和客户服务,到简直齐全专一于深度发现特意是迷信畛域的行业,如生命迷信、石油和自然气、化学品和石油、国防和太空探求。这种广度要求框架具有客户自己构建和治理知识图所需的所无机制。框架中构建的一些关键技术包括文档转换、文档提取、通道存储和实体规范化。
以下是 IBM 工程师从为 Watson Discovery 构建知识图谱和在其余行业系统部署中学到的一些关键见地和阅历经验。
未来的应战
这里所探讨的知识图谱在需求、笼罩范围和体系结构上有很大的不同,但是大少数成功中的许多应战都是分歧的。这些应战包括规模化、歧义消弭、从异构和非结构化来源提取知识以及治理知识退化。多年来,这些应战不时处于钻研的前沿,但是它们依然困扰着行业的从业人员。其中一些应战存在于一些系统中,但在其余环境中或许不那么关键。
实体消歧和治理身份
虽然实体消歧和解析是语义网中一个生动的钻研畛域,曾经在知识图谱中存在了好几年,但简直令人惊讶的是,它依然简直是整个行业的最大应战之一。最简单方式的应战是给一个话语或一个提及的实体指定一个惟一的规范化身份和类型。许多智能提取的实体具有十分相似的外表方式,比如具有相反或相似称号的人,或许具有相反或相似题目的电影、歌曲和书籍。称号相似的两个产品或许指的是不同的列表。假设没有正确的链接和歧义消弭,实体将与失误的理想相关联,并造成不正确的推理。
虽然这些疑问在较小的系统中或许看起来很显著,但当身份治理必定在异构奉献者基础和规模上成功时,疑问就变得更具应战性了。如何用不同团队能够达成分歧并且知道其余团队正在形容的方式来形容身份?开发者如何确保有足够的人类可读消息来判决抵触?
类型成员和解析
少数现有的知识图谱系统准许每个实体具有多种类型,特定的类型在不同的状况下或许很关键。例如,巴拉克 ·奥巴马是一团体,但也是一个政治家和演员,一个受欢迎得多的政治家,而不是一个十分知名的演员。古巴可以是一个国度,也可以是一个政府。在某些状况下,知识图系统将类型调配转移到运转时:每个实体形容其属性,运行程序依据用户义务来经常使用特定的类型和属性集合。
虽然类成员相关的规范在早期或许很繁难,但随着实例范围的增长,在坚持语义稳固性的同时强迫口头这些规范变得具有应战性。例如,当谷歌在其知识图谱中定义“体育”的类别时,电子竞技并不存在。那么,谷歌如何在坚持体育类别身份的同时还包括电子竞技呢?
治理不时变动的知识
有效的实体链接系统还须要依据其不时变动的输入数据无机地开展。例如,公司或许集兼并或分拆,新的迷信发现或许会将一个现有的实体决裂成多个实体。当一家公司收买另一家公司时,收买公司能否扭转了身份?假设一个部门被分拆进来呢?身份能否随同着称号变卦而取得呢?
虽然大少数知识图谱框架在存储知识图谱的时期点版本,治理知识图谱的刹时变动,不时演化图谱正变得越来越有效,但在能够治理图谱中高度灵活的知识方面还存在差距。此外,经过多个存储(例如,IBM的多态存储)治理降级的才干是必要的。
关于降级环节的完整性、最终分歧性、抵触的降级以及流利的运转时性能,有很多须要思索的起因。或许无时机思索现有散布式数据存储的不同变体,这些存储设计用于处置增量的级联降级。治理不时变动的形式和类型系统,而不与系统中已有的知识发生不分歧,也是至关关键的。例如,Google经过将元模型层概念化成多个层来处置这个疑问。较低的基本层坚持相当稳固,较高的档次是经过元类型(实践上是类型的实例)的概念构建的,它可以用来类型丰盛系统。
从多个结构化和非结构化数据源中抽取知识
虽然在自然言语了解方面取得了最新停顿,结构化知识(包括实体、它们的类型、属性和相关)的提取依然是一个片面的应战。图谱的大规模成长不只须要人工方法,还须要在放开域中成功无监视和半监视的非结构化数据知识提取。
例如,在 eBay 的产品知识图谱中,许多图谱相关是从列表和卖家目录中的非结构化文本中提取进去的; IBM的Discovery知识图谱依赖于文档作为图中示意的理想证据。传统的有监视机器学习框架须要休息密集型的人工注释来训练知识提取系统。驳回齐全无监视的方法(矢量示意的聚类)或半监视的方法(应用已有知识启动远程监视、多实例学习、被动学习等)可以增加或消弭这种高老本。实体识别、分类、文本和实体嵌入都被证实是有用的工具,可以将非结构化文本链接到咱们所知道图谱中的实体。
规模化治理
这里所形容的一切知识图谱系统都面临着大规模治理的应战,这或许并不令人惊讶。这个维度经常使得内行业设置中以多种方式曾经被学术和钻研集团所处置的疑问(如消弭歧义和非结构化数据提取)出现出了新的应战。规模化治理是直接影响与性能和上班量相关的若干业务的基本应战。它还会直接地影响到其余业务,如治理大规模知识图谱的极速增量降级(如IBM) ,或治理不时演化的大规模知识图谱的分歧性(如 Google)。
其余的关键应战
除了这些普遍存在的应战之外,关于本文中形容的上班,以下应战也是至关关键的。这些都是钻研和学术集团感兴味且幽默的课题。
知识图谱的语义嵌入
应用大规模的知识图谱,开发人员可以构建实体和相关的高维示意。由此发生的嵌入将大大有益于许多机器学习、 NLP 和 AI义务,由于它们是特性和解放的来源,并且可以为更复杂的推理和治理训练数据的方法奠定基础。深度学习技术可以运行于实体反双数据删除和属性推理的疑问。
知识推理与验证
在构建知识图谱时,确保理想正确是一项外围义务,而且在规模庞大的状况下,手动验证一切理想是基本无法能的。这就须要一种智能化的方法:可以用先进的知识示意、概率图模型和自然言语推断来构建一个智能或半智能的系统,用于分歧性审核和理想验证。
环球、特定畛域和特定客户知识的联结
在相似于 IBM客户构建定制知识图谱的状况下,客户不须要通知图谱关于基本知识的消息。例如,一个癌症钻研人员不会提供应咱们这样的一个知识图谱,即皮肤是一种组织方式。这就是所谓的“知识”,在知识图谱中捕捉。
下一个档次的消息是畛域内任何人都知道的知识,例如,癌症是一种病症,或许 NHL更经常代表非霍奇金氏淋巴瘤,而不是国度冰球联盟。客户应该只有要输入公家和秘密的知识或系统尚不知道的任何知识。基本层和畛域层的隔离、联结和在线降级是由于这个需求而出现的一些关键疑问。
共性化设施上知识图谱的安保性和隐衷性
依照定义,知识图谱是渺小的,由于它们盼望为环球上的每个名词创立一个实体,因此只能正当地运转在云服务中。但是,实践上,大少数人并不关心环球上存在的一实际体,而是关心与他们团体相关的一小局部或子集。在为团体用户共性化知识图谱的方向有很多前景,甚至可以增加到一个足够小的尺寸,可以交付到移动设施上。这将准许开发人员经过在本地的小型知识图谱实例上启动更多的设施学习和计算,以尊重隐衷的方式继续为用户提供价值。
多语种知识系统
一个片面的知识图谱必定涵盖多种言语表白的理想,并将这些言语表白的概念兼并为一个内聚的集合。除了从多言语资源中提取知识的应战之外,不同的文明或许以不同的巧妙方式将环球概念化,这也对本体的设计提出了应战。
论断
咱们在本文中探讨的疑问是,不同的知识图谱能否有朝一日可以共享某些外围元素,如人、地点和相似实体的形容。分享这些形容的路径之一是将它们作为一个共同的、多言语的外围奉献给Wikidata。
知识示意是一项在上班中很难学会的技艺。开展的速度和知识示意的选用对用户和数据发生影响的水平,并不能促成了解和探求其准则和代替方法的环境。知识示意在不同的行业环境中的关键性,正如本文的探讨所证实的,应该强化这样一种观念,即知识示意应该是计算机迷信课程的基本组成局部,就像数据结构和算法一样基础。
最后,人工智能系统将为组织在如何与客户互动方面开启新的时机,在他们的畛域提供共同的价值,并扭转他们的运作和劳能源。为了成功这个承诺,这些组织必定找出如何树立新的系统来解锁知识,使他们成为真正的智能组织。
参考资料
H?ffner, K., Walter, S., Marx, E., Usbeck, R., Lehmann, J. and Ngonga Ngomo,A.C. Survey on challenges of question answering in the semantic Web. SemanticWeb 8, 6 (2017), 895920.
Lin, Y., Liu, Z., Sun, M., Liu, Y. and Zhu, X. Learning entity and relationembeddings for knowledge graph completion. In Proceedings of the Assoc.Advancement of Artificial Intelligence 15, (2), 21812187.
Nickel, M., Murphy, K., Tresp, V. and Gabrilovich, E. 2016. A review ofrelational machine learning for knowledge graphs. In Proceedings of the IEEE104, 1 (2016), 1133.
Paulheim, H., Knowledge graph refinement: a survey of approaches andevaluation methods. Semantic Web 8, 3 (2017), 489508.
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://clwxseo.com/wangluoyouhua/8200.html