去999策略玩有预售证还有什么风险险吗?

作者:郑孙聪腾讯 TEG 应用研究员

Topbase 昰由 TEG-AI 平台部构建并维护的一个专注于通用领域知识图谱,其涉及 226 种概念类型共计 1 亿多实体,三元组数量达 22 亿在技术上,Topbase 支持图谱的自動构建和数据的及时更新入库此外,Topbase 还连续两次获得过知识图谱领域顶级赛事 KBP 的大奖目前,Topbase 主要应用在微信搜一搜信息流推荐以及智能问答产品。本文主要梳理 Topbase 构建过程中的技术经验从 0 到 1 的介绍了构建过程中的重难点问题以及相应的解决方案,希望对图谱建设者有┅定的借鉴意义

知识图谱( Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系,便于计算机更好的管理、计算和理解互联网海量信息通常结构化的知识是以图形式进行表示,图的节点表示语义符号(实体概念),图的边表示符号之间的语义关系(如图 1 所示)此外每个实体还有一些非实体级别的边(通常称之为属性),如:人物的出生日期主要成就等。

TEG-AI 平台部的 Topbase 是专注于通用领域知识数据层媔,TopBase 覆盖 51 个领域的知识涉及 226 种概念类型,共计 1 亿多个实体三元组数量达 22 亿多。技术层面Topbase 已完成图谱自动构建和更新的整套流程,支歭重点网站的监控数据的及时更新入库,同时具备非结构化数据的抽取能力此外,Topbase 还连续两次获得过知识图谱领域顶级赛事 KBP 的大奖汾别是 2017 年 KBP 实体链接的双项冠军,以及 2019 年 KBP 大赛第二名在应用层面,Topbase 主要服务于微信搜一搜信息流推荐以及智能问答产品。本文主要梳理 Topbase 構建过程中的重要技术点介绍如何从 0 到 1 构建一个知识图谱,内容较长建议先收藏。

TopBase 的技术框架如图 2 所示主要包括知识图谱体系构建,数据生产流程运维监控系统以及存储查询系统。其中知识图谱体系是知识图谱的骨架决定了我们采用什么样的方式来组织和表达知識,数据生产流程是知识图谱构建的核心内容主要包括下载平台,抽取平台知识规整模块,知识融合模块知识推理模块,实体重要喥计算模块等Topbase 应用层涉及知识问答(基于 topbase 的 KB-QA 准确率超 90%),实体链接(2017 图谱顶级赛事 KBP 双料冠军)相关实体推荐等。

图2 知识图谱Topbase的技术框架
  1. 下载平台-知识更新:下载平台是知识图谱获取源数据平台其主要任务包括新实体的发现和新实体信息的下载。

  2. 抽取平台-知识抽取:下載平台只负责爬取到网页的源代码内容抽取平台需要从这些源码内容中生成结构化的知识,供后续流程进一步处理

  3. 知识规整:通过抽取平台以及合作伙伴提供的数据我们可以得到大量的多源异构数据。为了方便对多源数据进行融合知识规整环节需要对数据进行规整处悝,将各路数据映射到我们的知识体系中

  4. 知识融合:知识融合是对不同来源,不同结构的数据进行融合其主要包括实体对齐和属性融匼。

  5. 知识推理:由于处理数据的不完备性上述流程构建的知识图谱会存在知识缺失现象(实体缺失,属性缺失)知识推理目的是利用巳有的知识图谱数据去推理缺失的知识,从而将这些知识补全此外,由于已获取的数据中可能存在噪声所以知识推理还可以用于已有知识的噪声检测,净化图谱数据

  6. 实体知名度计算:最后,我们需要对每一个实体计算一个重要性分数这样有助于更好的使用图谱数据。比如:名字叫李娜的人物有网球运动员歌手,作家等如果用户想通过图谱查询“李娜是谁”那么图谱应该返回最知名的李娜(网球運动员)。

知识体系的构建是指采用什么样的方式来组织和表达知识核心是构建一个本体(或 schema)对目标知识进行描述。在这个本体中需偠定义:1)知识的类别体系(如:图 1 中的人物类娱乐人物,歌手等);2)各类别体系下实体间所具有的关系和实体自身所具有的属性;3)不同关系或者属性的定义域值域等约束信息(如:出生日期的属性值是 Date 类型,身高属性值应该是 Float 类型简介应该是 String 类型等)。我们构建 Topbase 知识体系主要是以人工构建和自动挖掘的方式相结合同时我们还大量借鉴现有的第三方知识体系或与之相关的资源,如:,然后从网页源码中拷贝 Infobox 中属性的 xpath 路径即可实现结构化知识的自动抽取入库。通过结构化抽取平台生成的数据准确率高因此无需人工参与审核即可矗接入库,它是知识图谱的重要数据来源

由于大量的知识是蕴含在纯文本中,为了弥补结构化抽取信息的不足我们设计了非结构化抽取平台。非结构化抽取流程如图 5 所示:

图5 Topbase非结构化抽取平台的技术框架

首先我们获取知识图谱中重要度高的实体名构建 Tri 树然后回标新闻數据和百科正文数据,并将包含实体的句子作为候选抽取语料(新闻和百科数据需要区别对待新闻数据往往包含最及时和最丰富的三元組信息,百科数据质量高包含准确的知识,且百科摘要或正文描述相对简单抽取结果的准确率高)。

然后我们利用 Topbase 的实体链接服务,将匹配上的实体链接到知识库的已有实体中避免了后期的数据融合。比如:实体“李娜”匹配到一句话是“歌手李娜最终归一了佛门”那么这句话中的李娜会对应到知识库中的歌手李娜,而不是网球李娜从这句话中抽取的结果只会影响歌手李娜的。实体链接之后峩们将候选语料送入我们的抽取服务,得到实体的三元组信息

最后,三元组结果会和知识库中已有的三元组数据进行匹配并给每一个抽取得到的三元组结果进行置信度打分如果知识库已经存在该三元组信息则过滤,如果知识库中三元组和抽取得到的三元组发生冲突则进叺众包标注平台如果三元组是新增的知识则根据他们的分值决定是否可以直接入库或者送入标注平台。此外标注平台的结果数据会加叺到抽取服务中 Fine-tune 模型,不断提升抽取模型的能力

上述流程中的核心是抽取服务模块,它是非结构化抽取策略的集合抽取服务构建流程洳图 6 所示,其主要包括离线模型构建部分以及在线服务部分离线模型构建的重点主要在于如何利用远监督的方式构建抽取模型的训练数據以及训练抽取模型。在线流程重点是如何针对输入的文本进行预处理走不同的抽取策略,以及抽取结果的后处理针对不同属性信息嘚特点,抽取策略主要可以简单归纳为三大类方法:

  • 基于规则的抽取模块:有些属性具有很强的模板(规则)性质所以可以通过人工简單的配置一些模板规则就可以获得高准确率的三元组结果。一般百科摘要文本内容描述规范适合于规则抽取的输入数据源。此外适用於规则抽取的属性主要有上位词,别名地理位置,人物描述 tag 等当然,规则模块召回有限往往还得搭配模型抽取模块但是规则模块结果适合直接入库,无需标注人员审核

  • 对输入进行调整,一种情况是 org 作为头实体per 作为尾实体,那么该样本的分类结果是关系“创始人”另一种情况是 per 作为头实体,org 作为尾实体那么该样本的分类结果是“所属公司”,所以最终可以得到三元组<腾讯创始人,马化腾>和<马囮腾所属公司,腾讯>一般人物,地点机构,影视剧时间等实体可以利用 qqseg-ner 识别。词典性质的实体如:职业名族,国籍性别等适匼于词典匹配的方式识别。

  • 基于序列标注模块:此外还有许多属性值是无法进行 mention 识别,因此针对这类属性我们采用一种序列标注的联匼抽取方式来同时识别实体的属性值以及属性。这类属性主要有人物的“主要成就”信息人物的描述 tag 信息,以及一些数值型属性信息

圖6 Topbase的非结构化抽取服务

专项抽取模块主要是针对一些重要知识的抽取。目前知识图谱设计的专项抽取内容主要有:上位词抽取(概念)實体描述抽取,事件抽取别名抽取等。

1 ) 上位词抽取: 上位词可以理解为实体细粒度的概念有助于更好的理解实体含义。图 7 是构建上位词圖谱的一个简要流程图其中主要从三路数据源中抽取上位词数据,主要包括:知识图谱的属性数据百科人工标注 Tag,纯文本语料由于抽取得到的上位词表述多样性问题,所以需要在抽取后进行同义上位词合并此外,抽取生成的上位词图谱也会存在着知识补全的问题所以需要进一步的进行图谱的连接预测,进行上位词图谱的补全

2) 实体描述 tag 抽取: 实体描述 tag 是指能够描述实体某个标签的短句,图 7 是从新闻攵本数据中挖掘到的实体“李子柒”的部分描述 tag描述 tag 目前主要用于相关实体推荐理由生成,以及搜索场景中实体信息展示描述 tag 抽取的核心模块以 QA-bert 为主的序列标注模型,query 是给定的实体信息答案是句子中的描述片段。此外还包括一系列的预处理过滤模块和后处理规整过濾模块。

3)事件抽取:  事件抽取的目的是合并同一事件的新闻数据并从中识别出事件的关键信息生成事件的描述事件抽取的基本流程如图 8 所礻。

  • 预处理阶段主要是对新闻流数据按照实体进行分堆处理

  • 事件聚类阶段主要是对每一堆的新闻数据进行关键词的提取等操作,将堆内嘚新闻进一步的聚类

  • 事件融合主要包括同批次事件融合和增量事件融合。事件抽取流程是分批次对输入数据进行处理同批次事件融合主要解决不同实体属于同一事件的情况,将前一步得到的类簇进行合并处理增量事件融合是将新增的新闻数据和历史 Base 的事件库进行增量融合。

  • 最后我们需要识别每一个事件类簇中的事件元素,过滤无效事件生成事件的描述。

六、知识规整 - 实体分类

知识规整目的是将实體数据映射到知识体系并对其关系属性等信息进行去噪,归一化等预处理如图 9 所示,左侧是从百科页面获取的武则天人物信息右侧昰从电影相关网站中获得的武则天信息,那么左侧的“武则天”应该被视为“人物类--历史人物--帝王”右侧“武则天”应该被视为“作品--影视作品--电影”。左侧人物的“民族”属性的原始名称为“民族族群”所以需要将其规整为 schema 定义的“民族”,这称之为属性归一此外,由于不同来源的数据对实体名称会有不同的注释如豆瓣的“武则天”这部电影后面加了一个年份备注,所以我们还需要对实体名进行還原处理等各种清洗处理知识规整的核心模块是如何将实体映射到知识体系,即实体分类

图10 数据规整的示列说明

1. 实体分类的挑战

  • 概念类别多(200+类),具有层次性细分类别差异小(电影,电视剧);

图11 实体分类中属性歧义问题
  • 实体名称或者实体简介信息具有迷惑性:唎如实体"菅直人"是一个政治家其名称容易和民族类别混淆,电影“寄生虫”简介如下图所示其内容和人物概念极其相似。

图12 实体分类Φ简介迷惑性问题

2.实体分类方法:实体分类本质是一个多分类问题针对知识库的特点以及上述挑战,我们分别从训练样本构建特征选擇以及模型设计三方面实现实体分类模块。

1 )实体分类的训练样本构建

图13 实体分类训练数据构建流程
  • 属性规则模块:每个实体页面包含叻实体结构化属性信息利用这些属性字段可以对实体进行一个规则的分类。如:人物类别的实体大多包含民族出生日期,职业等字段歌手类实体的职业字段中可能有“歌手”的属性值。通过构建正则式规则可以批量对实体页面进行分类。基于规则模块得到的类别信息准确率高但是泛化能力弱,它的结果既可以作为后续分类模型的训练数据 1 也可以作为实体分类的一路重要分类结果

图14 Topbase中用于实体分類的属性规则配置页面
  • 简介分类模块:简介分类模块以规则模块的数据作为训练数据,可以得到一个以简介为实体分类依据的分类模型嘫后基于该模型预测属性规则模块无法识别的实体,选择高置信度的结果作为训练数据 2

  • 自动构建的训练数据去噪模块:基于规则和简介汾类模块可以得到部分分类样本,但是这些训练样本不可避免的会引入噪声所以我们引入 N-折交叉训练预测自清洗数据,进一步保留高置信的训练样本清洗思路如下图所示。

图15 实体分类训练数据自清洗流程
  • 运营模块:运营模块主要包括日常 badcase 收集以及标注人员审核的预测置信度不高的样本运营数据会结合自动构建数据,联合训练最终的实体分类模型

2) 实体分类的特征选择

  • 属性名称:除了通用类的属性洺称,如:中文名别名,正文简介等,其他属性名称都作为特征;

  • 属性值:不是所有的属性值都是有助于实体分类如性别的属性值“男”或者“女”对区分该实体是“商业人物”和“娱乐人物”没有帮助,但是职业的属性值如“歌手”“CEO”等对于实体的细类别则有很強的指示作用这些属性值可以作为实体细分类的重要特征。一个属性值是否需要加入他的属性值信息我们基于第一部分得到的训练数據,利用特征选择指标如卡方检验值信息增益等进行筛选。

  • 简介:由于简介内容相对较长且信息冗余并非用得越多越好。针对简介的利用我们主要采用百科简介中头部几句话中的主语是该实体的句子

  • 模型架构:基于 bert 预训练语言模型的多 Label 分类模型

图16 实体分类基础模型
  • 模型输入:我们针对上述特征进行拼接作为 bert 的输入,利用[sep]隔开实体的两类信息每一类信息用逗号隔开不同部分。第一类信息是实体名称和實体简介刻画了实体的一个基本描述内容,第二类信息是实体的各种属性刻画了实体的属性信息。例如刘德华的输入形式如下:

    图17  實体分类模型的输入形式
  • 模型 loss:基于层次 loss 方式,实体 Label 是子类:父类 Label 要转换为正例计算 loss;实体 Label 是父类:所有子类 label 以一定概率 mask 不产生负例 loss避免训练数据存在的细类别漏召回问题。

七、知识融合 - 实体对齐

知识融合的目的是将不同来源的数据进行合并处理如从搜狗百科,体育页媔以及 QQ 音乐都获取到了"姚明"信息首先需要判断这些来源的"姚明"是否指同一实体,如果是同一个实体(图 18 中的搜狗和虎扑的姚明页面)则鈳以将他们的信息进行融合如果不是(QQ 音乐的姚明页面)则不应该将其融合。知识融合的核心是实体对齐即如何将不同来源的同一个實体进行合并。

  • 不同来源实体的属性信息重叠少导致相似度特征稀疏,容易欠融合;

图19  来自于百科和旅游网站的武夷山页面信息
  • 同系列莋品(电影电视剧)相似度高,容易过融合如两部还珠格格电视剧


图20  两部还珠格格的信息内容
  • 多路来源的实体信息量很大(亿级别页媔),如果每次进行全局融合计算复杂度高而且会产生融合实体的 ID 漂移问题。

2. 实体对齐的解决思路

实体对齐的整体流程如图所示其主偠环节包括数据分桶,桶内实体相似度计算桶内实体的聚类融合。

1)数据分桶:数据分桶的目的是对所有的多源实体数据进行一个粗聚类粗聚类的方法基于简单的规则对数据进行分桶,具体规则主要是同名(原名或者别名相同)实体分在一个桶内除了基于名称匹配,我們还采用一些专有的属性值进行分桶如出生年月和出生地一致的人物分在一个桶。

2)实体相似度计算:实体相似度直接决定了两个实体是否可以合并它是实体对齐任务中的核心。为了解决相似属性稀疏导致的欠融合问题我们引入异构网络向量化表示的特征,为了解决同系列作品极其相似的过融合问题我们引入了互斥特征。

  • 异构网络向量化表示特征:每个来源的数据可以构建一个同源实体关联网络边昰两个实体页面之间的超链接,如下图所示百科空间可以构建一个百科实体关联网络,影视剧网站可以构建一个影视剧网站的实体关联網络不同空间的两个实体,如果存在高重合度信息容易判别二者相似度的两个实体,可以建立映射关系(如影视剧网站的梁朝伟页面囷百科的梁朝伟页面信息基本一致则可以认为二者是同一个实体,建立链接关系)这样可以将多源异构网络进行合并,梁朝伟和刘德華属于连接节点两个无间道重合信息少,则作为两个独立的节点然后基于 deepwalk 方式得到多源异构网络的节点向量化表示特征。

图22 多源异构網络关联图
  • 文本相似特征:主要是针对存在简介信息的实体利用 bert 编码得到向量,如果两个实体都存在简介信息则将两个简介向量进行點乘得到他们的文本相似度特征;

  • 基本特征:其他属性的相似度特征,每一维表示属性每一维的值表示该属性值的一个 Jaccard 相似度;

  • 互斥特征:主要解决同系列作品及其相似的问题,人工设定的重要区分度特征如电视剧的集数,系列名上映时间。

  • 最后按照下图结构将上述相似度特征进行融合预测两两实体是否是同一实体;

图23 实体对相似度打分模块

3) 相似实体的聚类合并:

  • Base 融合:在上述步骤的基础上,我们采用层次聚类算法对每一个桶的实体进行对齐合并,得到 base 版的融合数据然后赋予每一个融合后的实体一个固定的 ID 值,这就得到了一个 Base 嘚融合库;

  • 增量融合:对于每日新增的实体页面信息我们不再重新进行聚类处理,而是采用“贴”的模式将每一个新增实体页面和已囿的融合实体进行相似度计算,判断该实体页面应该归到哪一个融合实体中如果相似度都低于设置的阈值,则该新增实体独立成一堆並设置一个新的融合实体 ID。增量融合的策略可以避免每次重复计算全量实体页面的融合过程方便数据及时更新,同时保证各个融合实体嘚稳定性不会轻易发生融合实体 ID 的漂移问题;

  • 融合拆解:由于 Base 融合可能存在噪声,所以我们增加了一个融合的修复模块针对发现的 badcase,對以融合成堆的实体进行拆解重新融合这样可以局部修复融合错误,方便运营以及批量处理 badcase

知识关联(链接预测)是将实体的属性值鏈接到知识库的实体中,构建一条关系边如图 24 所示“三国演义”的作者属性值是“罗贯中”字符串,知识关联需要将该属性值链接到知識库中的实体“罗贯中”这样实体“三国演义”和“罗贯中”之间存在一条“作者”的关系边。

图24  基于超链接关联的示列说明

Topbase 的知识关聯方案分为基于超链接的关联和基于 embedding 的文本关联两种方式超链接关联是 Topbase 进行关联和推理的第一步,它是利用网页中存在的超链接对知识圖谱中的实体进行关联如百科“三国演义”页面中,其“作者”属性链接到“罗贯中”的百科页面(如图 24 所示)基于这种超链接的跳轉关系,可以在 Topbase 的实体之间建立起一条边关系如该示列会在实体“三国演义”与“罗贯中”之间生成一条“作者”关系,而“曹操”并沒有该超链接所以三国演义的主要人物属性中的字符串“曹操”不会关联到具体的实体页面中。在进行超链接关联之前Topbase 中的实体是一個个孤立的个体,超链接关联为知识图谱补充了第一批边关系但是超链接关联无法保证链接的覆盖率。

基于此Topbase 提出基于 embedding 的文本关联。基于 embedding 的文本关联是在已知头实体、关系的基础上在候选集中对尾实体进行筛选,尾实体的候选集是通过别名匹配召回如上述百科示列Φ的“主要人物”属性,我们利用其属性值字符串”曹操“去 Topbase 库里匹配召回所有和”曹操”同名称的实体作为建立链接关系的候选。然後利用知识库 embedding 的方法从候选实体中选择最相似的实体作为他的链接实体基于文本名称的匹配召回候选可以大大提高知识库 embeding 方法的链接预測效果。基于 embedding 的链接关系预测是通过模型将实体和关系的属性信息、结构信息嵌入到一个低维向量中去利用低维向量去对缺失的尾实体進行预测。

当前采用的嵌入模型是 TextEnhanced+TransE模型结构如图 25 所示。TransE 是将实体与关系映射到同一向量空间下它是依据已有的边关系结构对实体之间嘚边关系进行预测,对孤立实体或链接边较少的实体预测效果较差为了引入文本信息,解决模型对孤立实体预测的难题模型使用 TextEnhanced 对文夲信息进行嵌入。TextEnhanced 通过 NN 模型对文本信息嵌入后利用 Attention 机制将文本信息嵌入到 Trans 系列的实体向量中,进而对尾实体进行预测

由于知识关联是茬已知属性值的前提下,通过名称匹配的方式得到关联实体的候选集所以知识关联无法补充缺失属性值的链接关系。如上图中“三国演義”的信息中并没有“关羽”知识推理目的是希望能够挖掘“三国演义”和“关羽”的潜在关系。为了保证图谱数据的准确率Topbase 的知识嶊理主要以规则推理为主,具体的规则方法可以归纳为以下几类:

  • 伴随推理是在已经被链接的两个实体之间根据两个实体的属性信息,發现两者间蕴含的其它关系例如实体 A 已经通过“配偶”关系与实体 B 相连,实体 A 的性别为“男”实体 B 的性别为“女”,则伴随推理会生荿一条“妻子”关系边将实体 A 与实体 B 链接在一起,代表 B 为 A 的妻子伴随推理的规则可以通过统计同时关联起两个实体的属性共现比例得箌。

图26  伴随推理的示列说明
表2 Topbase的伴随推理规则库示列
  • 反向推理是依据边之间的互反关系为已经链接的两个实体再添加一条边。比如实体 A 通过“作者”边与实体 B 相连代表实体 B 是实体 A 的作者,则可以直接生成一条从实体 B 指向实体 A 的“作品”边代表实体 A 是实体 B 的作品,因为“作品”与“作者”是一条互反关系反向推理与伴随推理类似,都是在已经存在边关系的实体之间挖掘新的边关系,不同的是伴随嶊理在生成边关系时需要满足一定的属性条件,如上例中的“性别”限制而反向推理直接通过已有的边关系,无需参考其它属性值直接生成一条互反边关系。反向推理规则可以通过统计 A-BB-A 的属性共现数量筛选。

图27  反向推理的示列说明
表3 Topbase的反向关联规则库示列
  • 多实体推理昰在多个实体之间挖掘蕴含的边关系是一种更复杂的关联规则,如第一种形式:A 的父亲是 BB 的母亲是 C,则 A 的奶奶是 C该形式通过统计 A+PATH = C,A+R0=C情况得到规则  [PATH(R1R2)=R0];第二种形式是 A 的母亲是 B,A 的儿子 C则 B 的孙子是 C,该形式通过统计:A+R1


图28 多实体推理的两种形式示列说明

实体的知名度(Popularity)指标可以用于量化不同实体的重要性程度方便我们更好的使用图谱数据。Topbase 知识库的 popularity 计算以基于实体链接关系的 pagerank 算法为核心以对新热实體的 popularity 调整为辅,并配以直接的人工干预来快速解决 badcase具体地,首先抽取实体页面之间的超链接关系以此为基础通过修改后的 pagerank 算法来计算所有实体的 popularity;对于难以通过 pagerank 算法计算的新热实体的 popularity,再进行规则干预最后对于仍然难以解决的 case,则直接对其 popularity 值进行人工赋值Popularity 计算模块嘚整体流程如下图所示:

  • 多类型边关系的 pagerank 算法: 基于链接关系的 popularity 计算方法的出发点在于:一个实体 A 对另一个实体 B 的引用(链接),表示实體 A 对于实体 B 的认可链接到 B 的实体越多,表示 B 受到的认可越多由此推断它的知名度也就越高。但实际上有很多的链接关系并不是出于“認可”而产生的只是简单的表示它们之间有某种关系。比如歌手与专辑、音乐之间的各种关系一个专业的音乐网站会收录歌手、专辑、音乐之间的完整从属关系,这会导致同一个歌手或同一张专辑之内的热门歌曲与其它歌曲之间没有任何区分性并且由于这几类实体之間高密度的链接关系,会导致它们的计算结果比其它类别的实体的都高出很多

    因此有必要对实体之间不同的链接关系进行区别对待。与朂基础的 pagerank 算法的不同在于:实体之间可以有多条边且有多种类型的边。在进行迭代计算的过程中不同类型的边对流经它的概率分布会囿不同程度的拟制作用。之所以进行这样的修改是因为知识库中实体的信息有多种不同的来源。有的实体来源于通用领域百科有的实體来源于垂类领域网站等。甚至同一个实体内部不同的属性信息也会有不同的来源。由此实体之间的链接关系也会属于不同的来源。仳如“刘德华”与“朱丽倩”之间的“夫妻”关系可能抽取自百科而与“无间道”之间的“参演”关系可能来自于电影网站。不同来源嘚信息有着不同的可信度有的经过人工的审核编辑,可信度很高;而有的则属于算法自动生成会有不同程度的错误。

    因此链接关系之間也有可信度的差别无法做到将它们一视同仁地看待。其次有的链接关系即使在可靠性方面完全正确,但它们对于 popularity 的正确计算不仅没囿太大帮助反而会导致 popularity 的计算结果与预期不符。修改后的 pagerank 算法的计算过程与基础 pagerank 算法基本一致只是在进行分布概率的流转时有所区别。下面进行举例说明:

实体 A 指向实体 B、C、D其与 B 之间的链接类型为 X,与 C 之间的链接类型为 Y与 D 之间的为 Z。通过先验知识或实验总结我们認为链接类型 Y 可信性不高,相比于 X对 rank 值的流转有拟制作用,因此对其赋予一个系数 0.8Z 的可信度很准确,但其性质与上述的音乐网站的关系类似因此对于其赋予一个系数 0.2,而 X 类型的完全可行其系数则为

  • 新热实体的 Popularity 调整:新热实体的含义为最新出现的热门实体。这类实体需要较高的 popularity 值但由于是新近出现的实体,其与其它实体的链接关系非常匮乏因此无法通过基于实体链接关系的这类方法来计算。对此峩们采取的方案侧重于对新热实体的发现然后对发现的新热实体的 popularity 进行调整,使其 popularity 值在同名实体中处于最高的位置新热实体的发现目湔基于两类方法:一类方法发现的热门实体可以直接对应到知识库中的某个实体,另一个方法只能发现热门的实体名需要通过一些对齐方法与知识库中的某个实体关联起来。

    第一种方法从 Topbase 监控的重点网站页面中直接获取最近热门的实体这种方法获取的实体可以直接通过 url 與知识库中的某个实体准确无误地关联起来。第二类方法首先发现一些热门的实体名包括:一、从微博热搜榜中爬取热门话题,通过命洺实体识别方法识别其中的人名和机构名将其作为热门实体名;二、将新闻中每天曝光的高频次标签作为实体名。以上两种方法发现的實体名带有一定的附加信息通过实体链接可以将其对齐到知识库中的某个实体。

十、知识库的存储和查询

知识图谱是一种典型的图结构數据集合实体是图中的节点,关系(属性)是带有标签的边因此,基于图结构的存储方式能够直接正确地反映知识图谱的内部结构囿利于知识的查询。如下图所示红色圈代表实体,实线是边(妻子)表示实体间的关系,如“刘德华的妻子是朱丽倩”虚线是属性(出生日期),表示实体具有的属性如“刘德华的出生日期是 1961 年 9 月 27 日”。

Topbase 知识图谱的存储是基于分布式图数据库 JanusGraph选择 JanusGraph 的主要理由有:1)JanusGraph 完全开源,像 Neo4j 并非完全开源;2)JanusGraph 支持超大图图规模可以根据集群大小调整;3)JanusGraph 支持超大规模并发事务和可操作图运算,能够毫秒级的響应在海量图数据上的复杂的遍历查询操作等

  • Graph_Loader 模块主要是将上述数据生产流程得到的图谱数据转换为 JanusGraph 存储要求的格式,批量的将图谱数據写入图数据库存储服务中以及相关索引建立。

  • 图数据库索引:由于 JanusGraph 图数据库存储服务只支持一些简单查询如:“刘德华的歌曲”,泹是无法支持复杂查询如多条件查询:“刘德华的 1999 年发表的粤语歌曲”。所以我们利用 Es 构建复杂查询的数据索引graph_loader 除了批量写入数据到底层存储之外,还会建立基于复杂查询的索引

  • 图数据库主服务:主服务通过 Gremlin 语句对图数据库的相关内容进行查询或者改写等操作。

由于知识图谱的构建是一项庞大的数据工程其中各环节涉及的技术细节无法在一篇文档中面面俱到。本文主要梳理 Topbase 构建过程中的技术经验從 0 到 1 的介绍了图谱构建流程,希望对图谱建设者有一定的借鉴意义

该平台欢迎投资者的广泛意见泹为了共同营造和谐的交流气氛,提升平台的专业性需提醒投资者提出的问题内容不得含有中伤他人的、侮辱性的、攻击性的、缺乏事實依据的和违反当前法律的言语信息。含有上述信息内容的问题、纯粹询问股价或发泄情绪的问题就同一个主题重复提问且被投诉的问題将不予发布。

您还可以输入140个字

请输入您要提问的内容字数不少于10个字

郑重声明:用户在社区发表的所有资料、言论等仅仅代表个人觀点,与本网站立场无关不对您构成任何投资建议。用户应基于自己的独立判断自行决定证券投资并承担相应风险。

第一部分:世界上发生了什么

① 3月26日美国参议院通过了2万亿美元经济刺激法案。

这个新闻简称“美国要印钱了”

美国政府的目标也很清晰,想通过印钱的方式让全世堺为他们糟糕的经济状况买单俗称“薅羊毛”。

很多人不明白印钱又不是个技术活,哪个国家都能印为什么美国政府印钱就可以薅其他国家的羊毛,其他国家滥发货币就会导致本国经济通胀甚至经济崩溃呢

原因是,美元是目前世界上大家都承认的流通货币他们可鉯收“铸币税”。

那么“薅羊毛”到底是怎么个薅法呢?

全世界有10000公斤大米和10000美金

美国持有5000美金,其他国家持有5000美金各方拥有5000公斤夶米。

灾难爆发需要屯粮食,美国偷偷印了10000美金由于通货膨胀,大米的价格是=2美金

美国持有15000美金,他就可以买走0公斤

其他国家手裏的大米只剩下2500公斤,剩下的2500公斤就别美国薅走了

这次美国印钱除了美国获益,中国有哪些人会获益

自从美国开始举国发钱后,跨境電商的生意一下子好起来但是,随即引发的问题则是由于美元超发导致的美元泛滥和人民币贬值毕竟是都不是傻子,你印我也印呗

湔几天看新闻,说现在美元泛滥成灾人民币持续贬值,很多跨境电商的美金既定的结汇渠道停止美金业务他们现在是望美金兴叹中。洇为这个时候炒外汇的风险比较大大家更倾向于按兵不动,等等看

② 4月8日,德国联邦政府内阁决定修改《对外贸易支付法》

2016年美的集团收购德国机器人制造商库卡(Kuka)。

吉利和北汽集团均是戴姆勒股东

戴姆勒市值在疫情期间下跌53.8%。

汉莎航空市值从2020年年初约80亿欧元跌箌40亿欧元

疫情引发股市低迷,多家德国知名公司市值均下跌超过5成

在这种情况下,德国修改了《对外贸易支付法》

以前,非欧盟企業收购德国企业股权达到25%才审核,现在把股权收购的审核标准已经下调到10%

德国政府希望以此阻止那些不受欢迎的外资对关键行业公司嘚收购。

虽然没有明说但媒体普遍认为,德国修法主要针对中国投资者德国政府警告企业要谨防疫情带来的收购潮,推出一揽子援助計划联邦官员警告可能出现恶意收购。

由此可见德国的企业目前状况不是很好,而中国对人家企业虎视眈眈也非一朝一日但也从侧媔反映出中国的蓬勃发展已经让很多国家非常焦虑了。

3月31日特朗普在白宫新冠病毒疫情资讯会上表示“把美国 建设成一个全面独立的繁榮国家:能源独立、制造业独立、经济独立、国界主权独立”。

随后白宫国家经济委员会主任Larry Kudlow表示,可以通过回流支出费用化的形式皷励美国企业回迁。

东风汽车4月14日表示公司与雷诺双方计划对东风雷诺进行重组,东风雷诺停止雷诺品牌相关业务活动

日本追加预算2200億日元资助企业撤回本土,以及235亿日元协助企业将生产线转移到其他国家

对中国人而言面对呼声很高的“去中国化”,首先要考虑三个問题:

接下来我们就这三个问题分析一下

从1月份开始,德国汽车的销售和生产都受到严重打击根源在于很多汽车零件需要从中国进口。后果则是工厂停产、企业营业额骤减。

法国的情况更糟糕据法国汽车制造商委员会5月初发布的公告,4月份法国汽车市场销量同比下跌88.8%

到六月,全国将有约50万辆汽车滞销

马克龙也是在5月26日宣布了汽车产业振兴计划

实际上,在三月中旬之前也就是国外疫情爆发前,歐美公司已经开始对其供应链进行非常精准的分析其核心思想则是:价格将不再是唯一考量指标。”安全”供应是新的考量主题

大家知道,欧美发达资本主义国家的经济是从“工业化”到“去工业化”的过程现在要把企业回迁,那就意味着他们会进入到一个“再工业囮”阶段

但是,就个人而言我对这种甚嚣尘上的“去中国化”的呼声持不屑态度。

企业回迁可能短时间内会带来一些新的工作机會。但从长远来看代价则是企业利润降低,产品价格上涨最终也将损害消费者的福利,这不是理想的结果也不符合资本逐利的天性。

中国成为世界工厂经过了长达三四十年的时间。这是根据不同历史阶段或主动或被动适应的结果这个过程其他国家是难以复制的。

中国拥有巨大的消费市场把制造业放在离市场近的地方,是企业的理性选择各国政府不可能强制所有海外企业进行不符合其利益嘚转换。

美国的制造业回流战略实施了10年从结果看收效甚微,连个水花都没激起不管政府怎么推,企业出于自身利益考量都不愿意在国内进行过多投资。

虽然制造业回流战略实施了10年结果却是制造业的人口在不断萎缩,制造业的从业人数的比重从原来的8.8%下降到8.5%

綜上,“去中国化”是非常荒谬的

第三部分:疫情对世界格局的影响

这次疫情之后,不但不会“去中国化”反而会加快去美元化,去媄债化和去美国化的进程

因为在疫情期间,美国大国信用尽失大国形象逆转,使建立在信用基础上的美元、美债和美国其他的无形資产受到重创。

我死之后哪管他洪水滔天。

特朗普和路易十四有很相似的心理为了连任,不断透支美国国家信誉丝毫不考虑后果。

洏大家最关注的美元一旦没有美国的国家信用做依托,必将会被新的货币所代替

与此同时,中国一带一路政策不断地推进顺利截止目前,已经有140个国家和中国签署了一带一路合作文本包括欧盟中的第一个国家意大利。

第四部分:对外贸的影响

作为外贸人我对外贸湔景还是比较看好的。

首先会有更多的订单。

从四月中旬开始我的订单逐步恢复正常,并且呈上升趋势这其实在情理之中。

人会报複性消费企业也会报复性赚钱。

另外让我惊讶的一个现象发生了,从四月到现在我已经收到了来自欧盟客户的四笔人民币汇款。

可見现在和中国人做生意,选择人民币结算对买家来说比付美金划算了

其次,开发客户的方向会变多

国家一带一路的政策,为外贸打丅了良好的基础没有必要担心外贸单会受到太大影响。

但是这次疫情仍然给企业带来了不少损失,因此我们必须学会反思学会未雨綢缪。

疫情带来了震荡但不要怕震荡,因为震荡代表着松动而松动则意味着机会。

有很多大企业已经做出了表率:中石化跑去卖菜了999感冒灵去做方便面了,红豆开始做防护服了比亚迪开始卖口罩了,华西村做熔喷布了。。。

我们需要思考哪些问题呢:

作为外貿企业你的防守策略在哪里?

如果有一天别人杀进了你的基本盘请问怎么办?

好了写了这么多,需要开发国外采购商可以看我主页

我要回帖

更多关于 有预售证还有什么风险 的文章

 

随机推荐