【.com快译】 作为提高企业的运营效率和业务部门竞争力的必备工具,企业常识图谱(Enterprise Knowledge Graphs,EKG)正日益被宽泛地运用在协调组织内、外部数据的不同场景中。不过,作为事物的另一面,EKG的弊病则关键体如今:业务部门或许难以对其启动开发、保养、以及裁减。本文引见了EKG目前尚存在的各种应战,以及如何经常使用原生的多模型数据库所提供的灵敏的数据示意,来处置这些应战(请参见图1)。
图1:多模型常识图谱能够在一个系统中融合多种数据示意
什么是企业常识图谱?
目前,常识图谱曾经为Google、Apple、Facebook、Twitter、MicroSoft、Linkedin、Ebay以及阿里巴巴等公司发明了数万亿美元的财产。它们关键是经过自行研发技术栈(technology stacks)来支持常识图谱。相关于开源的EKG,商业化图形数据库产品的开发,则是依据行业或企业特定的常识模型,来协调组织的内容、数据、以及消息资产。
EKG通常示意某个组织的常识畛域,以及那些可被人工和机器了解的组件。它是对本组织的常识资产、内容和数据的参考汇合。此类汇合应用某种数据模型来形容人员、地点、事物、以及它们之间的相关。
只管许多企业都部署了各种类型的业务常识图谱(business knowledge graph,BKG)打算,但是并非一切的图谱都能叫做EKG。EKG的关键驱能源源自:为满足特定业务需求而构建定制化的常识图谱。假设说BKG关键旨在支持那些细分的业务用例,那么EKG则旨在向多个业务部门提供高品质的一致数据,以及多种用例。在下一节中,咱们将探讨在应用EKG支持业务用例时,所面临的应战和机会。
EKG的应战与机会
关于业务部门而言,由于EKG蕴含了来自多个数据源的高净值数据,因此它省去了为支持业务用例而集成数据源所经常使用的期间和精神。目前许多EKG打算都能够依据企业的概念模型,来协调多个一模一样的异构源系统。这些原始数据通常被暂存在诸如Hadoop/HDFS、S3等散布式的存储系统上,两边件群集会将这些数据提取并转换(Extract Transform Load,ETL)到图形数据库的群集之中。
由于EKG能够支持诸如企业级搜查之类的运行,因此它们须要提取和转换各种格局(如:文档、表格、键值和图形)的EKG数据,以支持业务运行。
图2:在协调图谱和提供数据时,或许发生不婚配的现象
由于企业往往难以将数据协调成为EKG所需的复杂多源数据,因此EKG经常无法施展出其所有的后劲。同时,业务用户岂但难以应答复杂且生疏的常识图谱示意方式,而且不足经常使用它们的工具。只管企业可以经过付出渺小的致力,将数十个、乃至数百个数据源整合到一个EKG中,并且处置诸如数据出处、以及权限保管之类的数据控制疑问,因此业务部门在充沛应用高品质EKG数据环节种,面临着“最后一百米”的渺小应战。
其实,疑问的实质在于,从数据到图形的“全有或全无”转换环节,会造成源数据示意方式与EKG之间、以及EKG与业务部门宿愿的数据处置方式之间的不婚配(见图2)状况。基于多模型的EKG,经过准许常识图谱中示意方式的多样性,来缩小数据的不婚配。据此,图谱将得以灵敏地启动增量协调,而业务部门也能够按需对数据启动起码的转换。
多个数据源被协调到图谱中的应战
企业须要协调好少量不同的数据源。通常状况下,被一致的相关数据源越多,对企业的潜在价值也就越大。当然,将数据协调到图谱的老本,也会随着数据源数量的参与而出现指数级的增长。这就是为什么企业盼望找到能够对数据启动智能协调,以及经过矫捷运行,来按需提供数据的协调方法。
图3:EKG的数据协调上班量会随着数据源数量而出现出指数级的增长
可见,咱们须要经过复杂的常识示意方式,来示意不同数据的纤细差异,并规范化图谱结构。供常识图谱经常使用与联结的一切源数据,都须要被转换成为单模型图形数据库中的图表结构。当然,将源数据映射到这些复杂的常识图谱示意方式是须要期间、精神、以及常识储藏的。
如下图4所示,由于须要少量的资源,EKG的生成环节或许会影响到图形数据库的裁减性能。在实践运行中,总会有超越图形数据库裁减才干的海量数据,尤其是存储键值和文档等实践数据的时刻。
图4:图形处置数据的复杂度与文档、键值的处置才干相关
基于上述要素,多模型数据库恰恰能够以按需扩容和简化图形示意的方式,来融合各种键值、文档、联接(join)、以及图形数据模型。例如:当用纯图形示意时,企业外部的网络安保消息会逐年以数万亿条“边(edge)”的速度增长。那么在结合了图形、文档和联接之后,同一个企业网络安保的图谱则或许以数十亿条“边”来示意。
企业在寻觅缩小开发和保养EKG所需上班量的环节中,往往会扪心自问如下疑问:
鉴于目前尚无可用于将数据智能协调为图形的适用打算,EKG必定是全体化的图模型,并且一切数据都必定被转换为图才干真正有用。同时,经过准许蕴含其余类型的数据模型,咱们可以缩小EKG的部署和保养上班,参与EKG的潜在规模,并且提高EKG开发和维持的灵敏性与矫捷性。另外,经过让其余数据模型的常识图谱将分段数据和图形存储在同一数据库中,咱们能够以矫捷和迭代的方式启动图形的协调。
让EKG易用的应战
如前文所述,业务用户难以应答复杂且生疏的常识图谱的示意方式,而且不足经常使用它们的工具。在实践经常使用中,他们常会碰到如下EKG疑问:
上述应战的实质源于:在EKG与业务部门须要经常使用和处置的数据方式之间,存在不婚配的状况。例如:某家企业或许须要2017年1月至2019年12月的一切买卖消息,并要求此类数据能够以特定文档结构(如JSON文档汇合)的方式提供进去。由于不想额当地学习或经常使用图形查问言语来到达该目的,因此他们须要一种“数据购物”的体验。即:经过访问EKG商店,并经常使用多重过滤器在EKG的目录中搜查数据,而后他们依据EKG商店介绍的数据集,来补充现有的数据,并指定失掉数据的方式与期间。
多模型企业常识图谱
多模型企业图谱(Multi-model enterprise graphs,MMEKG)可以经过让用户在同一个生态系统中混合和控制数据源、EKG、以及数据的示意方式,以处置前面提到的各种疑问。
缩小期间和老本
MMEKG能够按需对图启动提前转换。由于准许在边和顶点中蕴含不同的文档,因此多模型图谱能够减小图的大小。据此,EKG也可以经常使用矫捷迭代的环节来启动开发。
图5:经常使用多模型图谱能够更有效地协调常识图谱的数据
缩小计算资源
如下图6所示,EKG处置打算通常须要经常使用独自的数据系统,来启动stage、图形ETL、图形控制、以及将数据传递给业务部门经常使用。MMEKG可以有效地消弭源数据、常识图谱、以及精选的业务数据之间存在的不婚配状况。它岂但可以在同一个系统中控制数据,而且能够缩小转换的提前,并使得一切的数据都可以被搜查。可见,它降落了经常使用独自的集群来启动stage,转换,图形化,以及业务运行的相关老本(请参见图7)。
图6:典型的EKG生态系统会经常使用多个系统来启动stage和转换
图7:可以在同一多模型数据库中控制源数据、EKG、以及业务数据
经常使用繁难
由于多模型使得源数据、常识图谱和业务运行数据,能够在同一个数据系统中被搜查和找到,因此业务用户可以驳回自己的格局去经常使用数据,而不用了解复杂的企业图谱模型。
数据因循(data lineage)
雷同由于驳回了同一个多模型系统启动数据的stage,转换和交付,因此跟踪数据的因循也变得容易了许多。
增强现有的EKG
具备RDF(Resource Description Framework,资源形容框架)类EKG的企业,齐全可以保管现有的投入,并在MMEKG中加以应用。由于多模型图是RDF基于带标志的有向图的超集,因此模型数据库可以排汇RDF的本体和RDF的EKG。相似地,多模型图也蕴含有属性图,因此繁难了排汇那些基于属性图的EKG。
图8:多模型的EKG可以提取RDF,以及基于属性图的EKG
总结
多模型(Multi-model)堪称针对EKG的适用技术,其长处包括让EKG的多源数据愈加流利,提高EKG数据在业务用例中的可用性,经过混合模型成功更高的可裁减性,以及缩小EKG生态系统的复杂度。
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://clwxseo.com/wangluoyouhua/8187.html