知识图谱可以做什么?如何自动、高效地构建知识图谱?前沿的知识图谱自动构建技术有哪些?这篇文章将逐一解答这些问题。
日常生活中,我们经常遇到以下两种信息展现方式:
二者展示的信息量是差不多的,但右边这种看起来更加直观。而且,随着文本篇幅的增长,这种优势会体现得更加明显。
和人一样,机器也更加擅长利用右图所示的数据。但矛盾之处在于,互联网等数据平台存储的大多是左图所示的数据。要把左图转换成右图,机器需要经历一个「阅读理解」的过程。
这个过程如何完成?这就要提到我们今天的主题——知识图谱。
知识图谱可以做什么?
知识图谱的概念于 2012 年由 Google 提出,当时主要被用来提高其搜索引擎质量,改善用户搜索体验。随着大数据时代的到来和人工智能技术的进步,知识图谱的应用边界被逐渐拓宽,越来越多的企业开始将知识图谱技术融入其已经成型的数据分析业务,有的甚至使用知识图谱作为其数据的基础组织与存储形式,成为其数据中台的核心基建。
与谷歌类似,微软将知识图谱技术用于旗下必应(Bing)搜索引擎,优化搜索结果质量和交互式搜索体验;LinkedIn 与 Facebook 利用知识图谱挖掘其平台上人、事、资讯等之间的相互关系,使得用户更容易发现感兴趣的内容、找到志同道合的朋友;eBay、亚马逊等电商平台使用知识图谱为用户和产品建立联系,执行更精准的产品推荐;IBM 则专注于企业服务,其 IBM Watson Discovery 产品能够帮助用户根据自身的特殊需求快速构建自己的知识图谱框架。
虽然知识图谱的概念 2012 年才被提出,但其背后的思想本质上是上个世纪的语义网络(Semantic Network)知识表达形式,即一个由节点(Point)和边(Edge)组成的有向图结构知识库。其中,图的节点代表现实世界中存在的“实体”,图的边则代表实体之间的“关系”。
图 1:传统知识库与知识图谱示意图 [1]
与传统的数据存储和计算方式相比,知识图谱技术更加侧重于对非结构化异构数据的收集和处理,更擅长对于关系的表达和计算,可以处理复杂多样的关联分析、挖掘到更多隐藏知识。与此同时,知识图谱的数据结构与人工智能领域许多技术任务所基于的数据一脉相承(异质结构多关联的大数据),可以为后续的机器学习和推理任务提供强有力的支持,帮助企业在智能搜索、智能问答、智能推荐、以及大数据分析这几个方面提升性能。
近年来,知识图谱的诸多优势和应用前景使得面向特定领域的知识图谱构建在行业应用中得到推广,产生了如医疗知识图谱、金融知识图谱、电商图谱等不同的垂直行业的知识图谱形态。
图 2:行业知识图谱应用一览 [2]
如何构建知识图谱?
一般来说,构建一个知识图谱通常会经历知识获取、知识表示与建模、知识融合、知识存储,以及构建完成后的知识查询和推理几大要素:
图 3:知识图谱构建的要素与示例流程
在执行正式的知识获取步骤之前,通常会首先确认知识的建模表示方式,主要的方式有两种:
图 4:知识图谱数据建模方法 [3]
知识图谱构建的核心技术、局限与发展方向
知识获取是构建知识图谱的核心与前提条件,也是自动构建知识图谱最关键的影响要素和重点研究领域。除了纯人工的知识输入之外,目前的知识获取主要是指针对结构化数据(如关系型数据库)、半结构化数据(如词典、百科类标记清晰的网页数据)、或者非结构化数据(如声音、图像和文字语料数据)这三类不同结构的知识进行的自动或半自动抽取。
对于结构和半结构化的数据,通常只需要简单的预处理和映射即可以作为后续数据分析系统的输入,相关技术已经比较成熟。而非结构化数据通常需要借助自然语言处理、信息抽取、乃至深度学习的技术来帮助提取有效信息,这也是目前知识抽取技术的主要难点和研究方向,包含实体抽取、关系抽取和事件抽取三个重要的子技术任务。
移动互联网、云计算、以及物联网等技术的快速发展开启了一个大规模生产、分析和应用数据的大数据时代。然而,互联网上只有少数的结构或半结构化的数据知识可方便直接地被机器解析。对于非结构化数据的知识抽取尚达不到完全取代人工的准确度要求,而依靠人工编辑的知识图谱构建有着高成本、低效率的问题。根据德国 Mannheim 大学的研究者估算 [5],手动创建一个三元组(即一条记录)的成本在 2 到 6 美元之间。那么,使用纯人工的方式构建一个大型知识图谱的总成本就会在数百万到数十亿美元之间。相比较而言,自动创建知识图谱的成本可以降低 15 到 250 倍左右,即一个三元组需要 1 美分到 15 美分左右的成本。因此,如何应用自动化知识抽取技术,在广泛的自由文本信息中自动且准确地提取高质量、结构化知识,将成为知识图谱构建的重要突破点。
图 5:每个三元组成本与错误率之间的关系示意 [5]
前沿的知识图谱自动构建技术
知识获取是知识图谱自动构建的核心,而非结构化知识又是知识获取里面最需要攻克的技术难点。近年来,深度学习和相关自然语言处理技术的迅猛发展使得非结构化数据的自动知识抽取少人化、乃至无人化成为了可能。与传统方法相比,深度学习方法减少了对外部工具的依赖,能构建端到端的系统直接进行实体识别、关系抽取等任务,简单高效。
在深度学习的基础上,艾伦人工智能实验室和微软的研究人员结合自然语言处理领域较为成功的预训练语言模型,提出了自动知识图谱构建模型 COMET(COMmonsEnse Transformers)[8]。该模型可以根据已有常识库中的自然语言内容自动生成丰富多样的常识描述,在 Atomic 和 ConcepNet 两个经典常识图谱上都取得了接近人类表现的高精度,证明了此类方法在常识知识图谱自动构建和补全方面替代传统方法的可行性。
图 6:COMET 从一个已有知识图谱中学习(实线),并生成新的节点和边(虚线) [8]
另一方面,IJCAI 2020 上一篇来自明略科学院知识工程实验室的论文另辟蹊径,从传统的基于文本的知识图谱生成进一步扩展到了基于语音生成知识图谱。其 HAO-Graph 系统 [10] 设计并实现了实时的语音图谱生成架构,并且能够根据演讲者的主题变化在不同的图谱之间切换。
图 7:结合摘要从一长段语音演讲中提取出的知识图谱示例 [10]
HAO-Graph 基于明略科技的 HAO 智能技术,是已知的首个公开发布的从语音中构建知识图谱的系统,实现了中文文本和语音知识图谱的实时生成和可视化。与此同时,明略科技在最近的 WAIC 2020 上还进一步开放了其 Text2KG API 接口,帮助相关从业人员进行知识图谱底层的数据收集、标注、抽取、以及关联等相关任务,避免了大量的重复工作,节省开发者的时间。
在深度学习发展进入瓶颈的时期,结合知识成为了下一步人工智能技术突破的关键,而知识图谱必然是核心驱动力之一。我们期待这一技术在未来有更大、更广的应用。
参考
[1] A Survey on Knowledge Graphs: Representation, Acquisition and Applications
[2] 知识图谱发展报告(2018)
[3] 知识图谱标准化白皮书(2019)
[4] 人工智能之知识图谱(2019)
[5] How much is a Triple?
[6] 67 亿美金搞个图,创建知识图谱的成本有多高你知道吗?
[7] A Survey of Deep Learning Methods for Relation Extraction
[8] COMET : Commonsense Transformers for Automatic Knowledge Graph Construction
[9] AI2 等提出自动知识图谱构建模型 COMET,接近人类表现
[10] A Speech-to-Knowledge-Graph Construction System
[11] ICDM 2019 Knowledge Graph Contest: Team UWA
[12] 明略科技 HAO 图谱 Open API:开放企业级知识图谱构建能力
[13] Domain-Specific Knowledge Graph Construction
[14] Knowledge Graphs
[15] Enterprise-scale knowledge graphs
原文:https://mp.weixin.qq.com/s/guxhwaBvHdULkwdordTAcw
既然来了,说些什么?