即刻头条

文章46784
阅读12633906

人生倒计时

今日已经过去小时
这周已经过去天
本月已经过去天
今年已经过去个月

热评文章

首页生活指南正文内容

【品科技视角】知识图谱？|？精彩图片

阿立指南生活指南 2022-09-15 01:09:20 444 0

知识图谱的技术与应用

品科技视角

技术视角

2021-07-05 11:00

1.简介

随着移动互联网的发展，万物互联成为可能，这种互联产生的数据也在爆炸式增长，这些数据可以作为分析关系的有效原材料。如果之前的智能分析关注的是每个个体，那么在移动互联网时代，除了个体之外，个体之间的关系也必然成为我们深入分析的重要部分。在一项任务中，只要需要进行关系分析，知识图谱“可能”就派上用场了。

dota2自走棋官网棋子图谱_谷歌知识图谱_谷歌知识图谱官网

打开网易新闻查看精彩图片

2.什么是知识图谱？

知识图谱是公司在2012年提出的一个新概念。从学术的角度，我们可以给知识图谱下一个定义：“知识图谱本质上是语义网络的知识库( )”。但这有点抽象，所以从另一个角度来说，从实际应用的角度来说，知识图谱可以简单理解为多图（Multi-Graph）。

什么是多关系图？任何研究过数据结构的人都应该知道什么是图。图由节点（）和边（Edge）组成，但这些图通常只包含一种类型的节点和边。相比之下，多关系图通常包含多种类型的节点和多种类型的边。例如，左下图代表经典的图结构，右图代表多关系图，因为图包含各种类型的节点和边。这些类型用不同的颜色标记。

谷歌知识图谱_谷歌知识图谱官网_dota2自走棋官网棋子图谱

打开网易新闻查看精彩图片

在知识图谱中，我们通常用“()”表示图中的节点，用“()”表示图中的“边”。实体是指现实世界中的事物，如人、地名、概念、药品、公司等，而关系则是用来表达不同实体之间的某种联系，如人——“住”——北京、张三和李四是“朋友”，逻辑回归是深度学习的“先导知识”，等等。

现实世界中的许多场景都非常适合用知识图来表示。例如，在社交网络图中，我们可以同时拥有“人”实体和“公司”实体。人与人之间的关系可以是“朋友”或“同事”。个人与公司之间的关系可以是“当前受雇”或“以前受雇”的关系。同理，一个风控知识图谱可以包含“电话”和“公司”实体，电话和电话的关系可以是“通话”关系，每个公司也会有固定电话。

谷歌知识图谱_dota2自走棋官网棋子图谱_谷歌知识图谱官网

打开网易新闻查看精彩图片

3.知识图谱的表示

知识图谱应用的前提是知识图谱已经构建完成，也可以看作是一个知识库。这就是为什么它可以用来回答一些与搜索相关的问题，比如输入“谁是比尔盖茨的妻子？”在搜索引擎中，我们可以直接得到答案——“盖茨”。这是因为我们在系统级别创建了一个知识库，其中包含实体“Bill Gates”和“Gates”以及它们之间的关系。因此，当我们进行搜索时，我们可以直接通过关键字提取（“比尔盖茨”、“盖茨”、“妻子”）和知识库上的匹配得到最终的答案。这种搜索方式不同于传统的搜索引擎。传统的搜索引擎返回的是网页而不是最终的答案，因此还有一个用户自己过滤和过滤信息的额外过程。

谷歌知识图谱_谷歌知识图谱官网_dota2自走棋官网棋子图谱

打开网易新闻查看精彩图片

在现实世界中，实体和关系也有自己的属性，比如一个人可以有一个“名字”和“年龄”。当知识图谱具有属性时，我们可以使用属性图（Graph）来表示它。下图表示一个简单的属性图。李明和李菲是父子关系，李明有一个以138开头的电话号码。这个电话号码是2018年开通的，2018年可以作为关系的一个属性。同样，李明本人也有一些属性值，比如年龄25岁，职位是总经理等等。

谷歌知识图谱_dota2自走棋官网棋子图谱_谷歌知识图谱官网

打开网易新闻查看精彩图片

这个属性图的表达方式非常贴近现实生活场景，也能很好的描述业务所包含的逻辑。除了属性图，知识图也可以用RDF来表示，RDF由许多三元组()组成。 RDF在设计上的主要特点是易于发布和共享数据，但不支持实体或关系具有属性。如果必须添加属性，则需要在设计中进行一些更改。目前RDF主要用于学术场景。在业界，我们仍然使用图数据库（例如，存储属性图）。有兴趣的读者可以参考RDF的相关文献，文中不做过多解释。

4.知识提取

知识图谱的构建是后续应用的基础，构建的前提是从不同的数据源中提取数据。对于垂直领域的知识图谱，其数据来源主要来自两个渠道：一是业务本身的数据，通常包含在公司内部的数据库表中，以结构化的方式存储；另一种是在互联网上发布和爬取的数据，通常以网页的形式存在，所以是非结构化数据。

前者一般只需要简单的预处理，可以作为后续AI系统的输入，而后者一般需要借助自然语言处理等技术来提取结构化信息。例如，在上面的搜索示例中，比尔盖茨和盖特之间的关系可以从非结构化数据中提取，例如维基百科等数据源。

dota2自走棋官网棋子图谱_谷歌知识图谱官网_谷歌知识图谱

打开网易新闻查看精彩图片

信息提取的难点在于处理非结构化数据。在下图中，我们举一个例子。左侧是非结构化英文文本，右侧是从该文本中提取的实体和关系。在构建相似图的过程中，自然语言处理技术主要涉及以下几个方面：

一个。实体名称识别（名称）

b.关系抽取 ( )

c。实体统一( )

d。参考分辨率（）

下面对每种技术解决的问题做一个简单的说明，以便详细说明这些是如何实现的，这里不再展开。有兴趣的读者可以参考相关资料或学习我的课程。

谷歌知识图谱_谷歌知识图谱官网_dota2自走棋官网棋子图谱

打开网易新闻查看精彩图片

首先是实体命名识别，即从文本中提取实体，并对每个实体进行分类/标注：例如，从上面的文本中，我们可以提取实体-“NYC”，并将实体类型标记为“ ";我们也可以从中提取“'s BBQ”并将实体类型标记为“”。这个过程称为实体名称识别，是一种比较成熟的技术，有一些现成的工具可以做到这一点。其次，我们可以通过关系抽取技术从文本中抽取实体之间的关系。例如，实体“hotel”和“”之间的关系是“in”； “酒店”和“时间”之间的关系是“近”等等。

dota2自走棋官网棋子图谱_谷歌知识图谱官网_谷歌知识图谱

打开网易新闻查看精彩图片

另外，在实体名称识别和关系抽取过程中，存在两个难题：一是实体统一，即有些实体写法不同，但实际上指向同一个实体。例如，“NYC”和“New York”看起来是不同的字符串，但它们实际上指的是纽约市，需要合并。实体统一不仅可以减少实体的类型，还可以减少图的稀疏性（）；另一个问题是指称解析，这也是文本中出现的“它”、“他”和“她”等词所指向的实体。例如，本文中标记为“it”的两个都指向实体“hotel”。

谷歌知识图谱_谷歌知识图谱官网_dota2自走棋官网棋子图谱

打开网易新闻查看精彩图片

实体统一和问题比前两个问题更具挑战性。

5.知识图谱的存储

知识图谱的存储方式主要有两种：一种是基于RDF的存储；另一种是基于图数据库的存储。它们之间的区别如下图所示。 RDF 的一个重要设计原则是易于发布和共享数据，而图数据库则专注于高效的图查询和搜索。其次，RDF以三元组的形式存储数据，不包含属性信息，但是图数据库一般使用属性图作为基本表示，因此实体和关系可以包含属性，这意味着更容易表达现实的业务场景。

谷歌知识图谱_dota2自走棋官网棋子图谱_谷歌知识图谱官网

打开网易新闻查看精彩图片

根据最新统计数据（2018 年上半年），图数据库仍然是增长最快的存储系统。相反，关系数据库的增长基本上保持在稳定的水平。同时，我们还列出了常用的图数据库系统及其最新使用排名。其中，Neo4j 系统仍然是使用最广泛的图数据库。它有一个活跃的社区，系统本身的查询效率很高，但唯一的缺点是不支持准分发。相反，和（原Titan）支持分布式，但是这些系统比较新，社区没有Neo4j那么活跃，这意味着在使用过程中难免会出现一些棘手的问题。如果您选择使用 RDF 的存储系统，Jena 可能是一个不错的选择。

dota2自走棋官网棋子图谱_谷歌知识图谱官网_谷歌知识图谱

打开网易新闻查看精彩图片

6.金融知识图谱构建

接下来，我们来看一个实际的具体案例，逐步讲解如何构建金融风控领域的实用知识图谱系统。首先要注意的是，很多人可能认为构建知识图谱系统的重点在于算法和开发。但事实并不像想象的那样。其实最重要的核心在于对业务的理解和知识图谱本身的设计。这类似于业务系统。数据库表的设计尤为关键，和这个设计是绝对分不开的。深入了解业务并预测未来业务场景的变化。当然，我们不会在这里讨论数据的重要性。

谷歌知识图谱_dota2自走棋官网棋子图谱_谷歌知识图谱官网

打开网易新闻查看精彩图片

完整知识图谱的构建包括以下步骤：1.定义具体业务问题2.数据收集与预处理3.知识图谱设计4.将数据存储在知识图谱5. 开发上层应用和系统评估。让我们按照这个过程来谈谈在每个步骤中要做什么以及要考虑什么。

6.1 定义特定的业务问题

在P2P网贷环境中，核心问题是风险控制，即如何评估借款人的风险。在网络环境下，欺诈的风险尤为严重，而其中很多风险都隐藏在复杂的关系中，而知识图谱就是针对这类问题设计的，所以我们“可能”认为它是欺诈性的。，这为问题带来了一些价值。

谷歌知识图谱官网_dota2自走棋官网棋子图谱_谷歌知识图谱

打开网易新闻查看精彩图片

在进入下一个话题的讨论之前，有一点需要明确的是，对于自身的业务问题是否需要知识图谱系统的支持。因为在很多实际场景中，即使有一定的关系分析需求，使用传统数据库其实也可以完成分析。因此，为了避免使用知识图谱和选择知识图谱谷歌知识图谱官网，以及更好的技术选择，下面给出一些总结，以供参考。

谷歌知识图谱_谷歌知识图谱官网_dota2自走棋官网棋子图谱

打开网易新闻查看精彩图片

6.2 数据收集与预处理

下一步是识别数据源并进行必要的数据预处理。对于数据源，我们需要考虑以下几点： 1. 我们已经拥有哪些数据？ 2. 虽然现在不可用，但哪些数据可能可用？ 3. 哪一部分数据可以用来降低风险？ 4. 哪一部分数据可以用来构建知识图谱？这里需要注意的是，并非所有与反欺诈相关的数据都必须进入知识图谱，这部分的一些决策原则将在下一部分更详细地介绍。

对于反欺诈，我们很容易想到几个数据源，包括用户基本信息、行为数据、运营商数据、互联网公开信息等。假设我们已经有了一个数据源列表，下一步就是看看哪些数据需要进一步处理。例如，对于非结构化数据，我们或多或少需要使用与自然语言处理相关的技术。用户填写的基本信息基本都会存储在业务表中。除了需要进一步处理的个别字段外，许多字段可以直接用于建模或添加到知识图谱系统中。对于行为数据谷歌知识图谱官网，我们需要做一些简单的处理，从中提取出有效的信息，比如“用户在某个页面停留了多长时间”等等。对于互联网上公开的网页数据，需要一些信息提取相关技术。

例如，对于用户的基本信息，我们大概需要以下操作。一方面，可以直接从结构化数据库中提取和使用姓名、年龄、学历等领域的用户信息。但另一方面，对于填写的公司名称，我们可能需要做进一步的处理。比如，有的用户填写“北京贪心科技有限公司”，有的用户填写“北京望京贪心科技有限公司”，实际上指向的是同一家公司。因此，这个时候，我们需要对齐公司名称。使用的技术细节可以参考上文提到的实体对齐技术。

dota2自走棋官网棋子图谱_谷歌知识图谱_谷歌知识图谱官网

打开网易新闻查看精彩图片

6.3 知识图谱设计

图设计是一门艺术，不仅需要对业务有深刻的理解，还需要对未来业务可能发生的变化有一定的预测，从而设计出最接近现状、具有高表现。说到知识图谱设计，我们肯定会面临以下常见问题：1.需要哪些实体、关系和属性？ 2. 哪些属性可以作为实体，哪些实体可以作为属性？ 3. 哪些信息不需要放在知识图谱中？

基于这些常见问题，我们从过去的设计经验中提炼出一系列设计原则。这些设计原则类似于传统数据库设计中的范式，指导相关人员在保证系统效率的同时，设计出更加合理的知识图谱系统。

谷歌知识图谱官网_dota2自走棋官网棋子图谱_谷歌知识图谱

打开网易新闻查看精彩图片

接下来，我们通过几个简单的例子来说明其中的一些原则。首先是业务原理（设计。” .

例如，你可以观察下图，问问自己背后的业务逻辑是什么。通过一些观察，实际上很难看出业务流程是什么。做一个简单的解释，这里的实体——“应用”的意思是，如果你对这个领域有一定的了解，它实际上是一个入口实体。在下图中，应用程序和电话实体之间的“”、“电话”是什么意思？

谷歌知识图谱_dota2自走棋官网棋子图谱_谷歌知识图谱官网

打开网易新闻查看精彩图片

我们来看看下图。与上一个不同的是，我们从原始属性中提取出申请人，并将其设置为一个单独的实体。这样一来，整个业务逻辑就变得非常清晰了。我们不难看出，张三申请了两笔贷款，张三有两个手机号。在申请其中一项贷款时，他填写了父母的电话号码。不会。总而言之，好的设计让人们很容易看到业务本身的逻辑。

谷歌知识图谱官网_dota2自走棋官网棋子图谱_谷歌知识图谱

打开网易新闻查看精彩图片

接下来，我们来看一个叫做效率原理（）的原理。效率原则使知识图谱尽可能轻量化，并决定哪些数据放在知识图谱中，哪些数据不需要放在知识图谱中。这是一个简单的类比。在经典的计算机存储系统中，我们经常谈到内存和硬盘。内存用作高效的存取载体，是所有程序运行的关键。这种存储的分层设计源于数据的局部性——“”，意思是经常访问的数据集中在某个块中，所以可以将这部分数据放在内存中，提高访问效率。类似的逻辑也可以应用到知识图谱的设计中：我们将常用的信息存储在知识图谱中，将那些不经常访问的和与关系分析无关的信息放在传统的关系数据库中。效率原则的核心是将知识图谱设计成一个小而轻的存储载体。

dota2自走棋官网棋子图谱_谷歌知识图谱_谷歌知识图谱官网

打开网易新闻查看精彩图片

例如，在下面的知识图谱中，我们可以将“年龄”和“家乡”等一些信息放入传统的关系数据库中，因为这些数据对于： a．分析关系 B. 访问频率低，放在知识图谱上会影响效率。

dota2自走棋官网棋子图谱_谷歌知识图谱官网_谷歌知识图谱

打开网易新闻查看精彩图片

另外，从分析原理（从冗余原则（）的角度来看，一些重复信息和高频信息可以放在传统数据库当中。

6.4 将数据存储到知识图谱中

在存储方面，我们不得不面对存储系统的选择，但是因为我们设计的知识图谱是有属性的，所以图数据库可以是首选。但至于选择哪种图数据库，还要看业务量和对效率的要求。如果数据量特别大，Neo4j 可能无法满足业务的需求。这时候就不得不选择一个支持准分布式系统的系统，例如，等，或者通过效率和冗余的原则将信息存储在传统数据库中，从而减少知识。地图携带的信息量。一般来说，对于 10 亿节点以下的图，Neo4j 就足够了。

6.5 上层应用开发

构建知识图谱后，我们将使用它来解决具体问题。对于风控知识图谱，首要任务是挖掘关系网络中隐藏的欺诈风险。从算法的角度来看，有两种不同的场景：一种是基于规则的；另一种是基于规则的；另一种是基于概率的。鉴于人工智能技术的现状，基于规则的方法论在垂直领域的应用仍占主导地位，但随着数据量的增加和方法论的完善，基于概率的模型将逐渐带来更大的价值。

6.5.1 基于规则的方法

首先，我们来看几个基于规则的应用，分别是不一致性验证、基于规则的特征提取和基于模式的判断。

不一致验证

为了判断关系网络中存在的风险，一个简单的方法是做不一致验证，即通过一些规则来发现潜在的矛盾。这些规则是以人为方式预先定义的，因此需要一些业务知识来设计规则。比如下图中，李明和李飞都标明了同一个公司的电话号码，但实际上从数据库中判断出这两人实际上在不同的公司工作，这是一个矛盾。其实类似的规则可以有很多，这里就不一一列举了。

dota2自走棋官网棋子图谱_谷歌知识图谱_谷歌知识图谱官网

打开网易新闻查看精彩图片

根据规则提取特征

我们也可以根据规则从知识图谱中提取一些特征，这些特征一般都是基于深度搜索的，比如2度、3度甚至更高维度。例如，我们可以提出这样的问题：“申请人的二级关系中，有多少实体接触了黑名单？”从图中我们可以很容易地观察到二度关系中的两个实体都接触了黑名单（黑名单用红色标记）。这些特征提取出来后，一般可以作为风险模型的输入。在这里我要说明一点，如果特性不涉及深度关系，其实传统的关系型数据库已经足够满足需求了。

谷歌知识图谱官网_dota2自走棋官网棋子图谱_谷歌知识图谱

打开网易新闻查看精彩图片

基于模式的判断

这种方法更适合发现群体欺诈。它的核心是通过一些模式找到可能存在风险的组或子图，然后进一步分析这个子图。这样的模式有很多种，这里举几个简单的例子。例如下图中，三个实体共享了很多其他信息，我们可以将其视为一个组，对其进行进一步分析。

谷歌知识图谱_谷歌知识图谱官网_dota2自走棋官网棋子图谱

打开网易新闻查看精彩图片

再比如，我们也可以从知识图谱中找到一个强连通图，标记出来，然后做进一步的风险分析。强连通图意味着每个节点都可以通过一定的路径到达其他点，这意味着这些节点之间存在强关系。

谷歌知识图谱_dota2自走棋官网棋子图谱_谷歌知识图谱官网

打开网易新闻查看精彩图片

6.5.2 基于概率的方法

除了基于规则的方法外，还可以使用概率和统计方法。社区挖掘、标签传播和聚类等技术都属于这一类。对于这类技术，本文不做详细解释，有兴趣的读者可以参考相关文献。

社区挖掘算法的目的是从图中找到一些社区。对于一个社区，我们可以有多种定义，但直观上可以理解为，一个社区内节点之间的关系密度明显大于社区之间的关系密度。下图是社区发现后的结果，图中一共标注了三个不同的社区。一旦我们有了这些社区，就可以进行进一步的风险分析。

由于社区挖掘是一种基于概率的方法，优点是不需要手动定义规则，特别是对于庞大的关系网络，定义规则本身就是一件非常复杂的事情。

谷歌知识图谱官网_谷歌知识图谱_dota2自走棋官网棋子图谱

打开网易新闻查看精彩图片

标签传播算法的核心思想是节点之间的信息传递。这就像你和好人在一起，你会逐渐变得更好一样。因为通过这段关系，你会不断地吸收高质量的信息，最终你会在不知不觉中变得更好。具体细节在此不再赘述。

与基于规则的方法相比，基于概率的方法的缺点是它们需要足够的数据。如果数据量很小，整个图是()，那么基于规则的方法可以是我们的首选。尤其是金融领域，数据标签会越来越少，这也是基于规则的方法在金融领域还是比较常用的主要原因。

6.5.3 基于动态网络的分析

以上所有分析均基于静态关系图。所谓静态关系图，是指我们不考虑图结构本身随时间的变化，而只关注当前的知识图结构。但是，我们也知道图表的结构会随着时间而变化，而这些变化本身可能与风险相关。

在下图中，我们给出了时间 T 和时间 T+1 的知识图谱的结构。我们可以很容易地看到，在这两个时刻的中间，图结构（或结构的一部分）显然已经发生了。变化，这实际上意味着潜在的风险。那么如何判断这些结构性变化呢？有兴趣的读者可以参考与“ ”相关的文献。

dota2自走棋官网棋子图谱_谷歌知识图谱_谷歌知识图谱官网

打开网易新闻查看精彩图片

7.知识图谱在其他行业的应用

除了金融领域，知识图谱的应用还可以涉及到很多其他行业，包括医疗、教育、证券投资、推荐等等。事实上，只要存在关系，知识图谱就可以在某些地方发挥作用。以下是一些垂直行业的应用。

比如在教育行业，我们经常会讲到因材施教，因材施教的理念。核心是了解学生当前的知识体系，而这个知识体系依赖于我们获得的交互数据、评价数据、交互数据等数据。为了分析学习路径和知识结构，我们需要一个领域的概念知识图，它只是一个概念拓扑。在下图中，我们给出了一个非常简单的概念图：例如，要学习逻辑回归，首先需要了解线性回归；为了学习 CNN，你需要了解神经网络，等等。所有对学生的评价和互动分析都离不开概念图的底层数据。

谷歌知识图谱_谷歌知识图谱官网_dota2自走棋官网棋子图谱

打开网易新闻查看精彩图片

在证券领域，我们经常关心“发生了一件事情，对哪些公司产生了什么样的影响？”比如有一条关于公司1高管的负面消息，我们知道公司1和公司2有着非常密切的合作关系。公司 2 的主要产品是根据公司 3 提供的原材料制成的。

谷歌知识图谱官网_谷歌知识图谱_dota2自走棋官网棋子图谱

打开网易新闻查看精彩图片

其实有了这样的知识图谱，我们就可以很容易地回答哪些公司可能会受到这个负面事件的影响。当然，这只是“可能”，是否会有强相关性，还要有数据来验证。所以在这里，知识图谱的好处是可以快速勾勒出我们需要关注的范围。接下来的问题会比较复杂，比如既然我们知道公司3可能会受到这次事件的影响，那么具体影响有多大？对于这个问题，仅靠知识图谱是很难回答的。必须有影响模型和一些历史数据，才能在知识图谱中做进一步的推理和计算。

8.几个实用技巧

首先，知识图谱是一个比较新的工具，它的主要功能是分析关系，尤其是深度关系。因此，在做生意时，首先要保证它的必要性。其实很多问题都可以用非知识图的方法解决。

知识图谱领域最重要的主题之一是知识的推理。而知识的推理是实现强人工智能的必由之路。但遗憾的是，许多从语义网络角度讨论的推理技术（如深度学习、概率和统计）在实际的垂直应用中难以实现。事实上，最有效的方法是基于一些基于规则的方法，除非我们有非常大的数据集。

最后需要强调的是，知识图谱项目本身还是以业务为中心，以数据为中心的。不要低估业务和数据的重要性。

9.结束语

知识图谱是一个具有挑战性且有趣的领域。只要有正确的应用场景，知识图谱的价值还是可以期待的。相信在不到2、3年的时间里，知识图谱技术将会在各个领域得到普及。