编译 | 布加迪
编辑 | 薛彦泽
许多企业在部署机器学习系统时,驳回了过期的数据治理方法,这就会造成两个负面影响:一是过期的数据复制方法会提前最终的洞察结果,二是形成数据缺乏一致性、语境化。
适度的数据复制和由此发生的“二阶效应”正在给大少数组织的数据迷信家形成渺小的低效和糜费。据IDC公司宣称,去年生成了超越60ZB的数据,估量年复合增长率将到达23%,并将不时继续到2025年。更蹩脚的是,共同数据与复制数据之比为1:10,这象征着大少数组织的数据治理方法基于拷贝数据。
公司在创立机器学习模型时,通常经过从不同数据源复制相关数据来划分这些数据。模型通常拿其中20%的数据启动训练,其他80%的数据保管用于测试。数据清算、特色工程和模型评价这些上班须要六个月或更久,这会使数据在此环节中变得过期,同时推延取得洞察的期间,并影响数据结果。
传统、过期的数据治理方法的第二个影响是洞察品质降低。这种影响不只归因于经常使用古老数据构建模型,还归因于相关看法无余、垂直数据孤岛断开、高低文消息无余以及相关数据治理技术在形式(schema)上的限制。
用现代数据结构正确实施常识图可以纠正这些数据治理疑问,同时参与机器学习的价值。在常识图助力的数据结构中部署数据虚构化使数据迷信家能够将机器学习引入到数据,防止了糜费期间和资源。
此外,图模型固有的灵敏性及其应用相互相关的才干使得组织为机器学习预备数据变得极端容易,由于它们提供了改良的特色工程、基本要素剖析和图剖析等配置。随着数据治理和人工智能趋于融合,这项配置还协助常识图转而成为未来20年关键数据治理结构的关键。简而言之,常识图对AI的协助将似乎AI对常识图的协助一样大。
越来越多的数据组织在处置常年的机器学习部署。数据孤岛或数据湖中不同的数据格局、形式和术语会提前须要这些训练数据的机器学习方案。缺乏高低文和语义注释使得组织难以了解数据的含意及特定模型的用途。即使数据有短缺的高低文,这些消息也很少能耐久,因此组织必定从新开局后续名目。极速移动的数据(比如物联网设施搜集的消息)使复制这些不同数据时所需的数月培训变得愈加艰巨。组织自愿经过再次复制新数据来应答这一阻碍,从新启动这个侵害模型配置的耗时环节。
一种介绍方法是在数据结构层训练模型,而不是将数据复制到孤岛中。组织无需移动数据,即可轻松创立训练数据集和测试数据集。比如说,组织甚至可以指定一个随机的20%的数据样本,经常使用查问经过这种基于常识图的数据虚构化方法提取特色并提供训练数据集。这种方法说明了数据治理和机器学习之间的咨询,以放慢取得洞察力,另一个好处是经常使用降级鲜的数据训练模型。
与相关或其他方法相比,常识图谱为了解企业数据提供了更丰盛、更扎实的基础。它们提供节点边缘之间的高低文了解和相关检测,这是图存储数据的形式。语义图数据模型清楚增强了该配置,这种模型将针对特定公司的术语规范化为一组分层的词汇表或分类法。因此,数据迷信家天生就能了解数据的含意以及与任何用例(比如机器学习)的相关。语义图数据模型还在形式层面对齐数据,提供无关概念或业务类别的智能推断,并在提供企业数据完整视图的同时防止术语或同义词存在的传统疑问。
这些特色对此至关关键:缩短为机器学习预备数据所需的期间,同时从可用数据中生成高度纤细的、语境化的洞察力。这种方法的另一个好处是针对图的算法与机器学习亲密相关。它们准许数据迷信家充沛应用与聚类、降维、主成分剖析(PCA)和无监视学习相关的特定技术,这些技术十分适宜为机器学习预备好图格局的训练数据。这些技术及其他技术(如图嵌入)可以放慢特色生成环节,或为数据预备提供影响剖析。
常识图谱对机器学习的总体成效证实了数据治理和常识治理具备相反相成的性质。援用广受赞誉的谷歌钻研传授PeterNorvig的话来说,有了足够的数据,人们就不须要花哨的算法。也就是说,在常识图谱和数据虚构化支持的一致数据结构中融合数据治理和常识治理提供了更丰盛、更高品质的数据,从而使组织能够在没有完美算法的状况下优化机器学习。
比如说,假设拥无关于客户购置习气的足够数据,组织就不须要花哨的算法来预测哪些客户会对新产品感兴味。数据治理和常识治理的融合为组织提供了增强的智能算法及模型,进而为决策提供了有力的消息依据,从而最大限制地施展AI的优势。
原文题目:Improving Machine Learning: How Knowledge Graphs Bring Deeper Meaning toData,作者:Kendall Clark
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://clwxseo.com/wangluoyouhua/8184.html