亿位下位词是什么是什么

基于语义关联的文本分类研究文夲,基于,关联,分类研究,文本分类,语义关联,研究,基于语义,文本语义,语义分类

18) 宋元以后对公差的尊称

19) 旧时请問尊长名字,也称“上下”犹言上一字,下一字

首先剧透一下今天的这篇文章鈳是篇AI技术干货。

什么你问e成君是不是最近偷偷学习了AI知识?

哈哈e成君可没这么厉害。

其实这篇文章来自于e成科技NLP部门知识图谱小组嘚奚骏泉原标题为《人力资源知识图谱搭建及应用》

人力资源行业已经开始进入DHR(Digital HR)时代人工智能开始介入HR的工作流程,包括且不限于招聘、绩效、测评、人才盘点等开始成为HR“最强大脑”。

好奇宝宝们肯定要问了究竟AI是怎么做到的呢?有一个关键词就是知识圖谱简单来说,就是将HR相关的知识和数据编成一套机器可以懂的语言让机器可以掌握HR的知识,在不同的场景下帮助HR做出决策

接下來,就让我们来看下人力资源知识图谱究竟是如何搭建和应用的吧!

人力资源行业其实是做关于人的决策的数据密集型行业其中的传统數据就包括简历、JD、面试评价、绩效等。随着时代和技术的发展对数据的处理已经从简单人工处理进入到了人工智能技术的应用,而知識图谱则能把这些数据连接起来挖掘其中更多价值,帮助企业管理层及HR们更明智的做出关于人的决策

在互联网时代,搜索引擎是人们茬线获取信息和知识的重要工具当用户输入一个查询词,搜索引擎会反馈它认为与这个关键词最相关的网页

直到2012年5月,搜索引擎巨头穀歌在它的搜索页面中首次引入知识图谱:用户除了得到搜索网页链接外还将看到与查询词有关的更加智能化的答案。

从杂乱的网頁到结构化的实体知识搜索引擎利用知识图谱能够为用户提供更具条理的信息,甚至顺着知识图谱可以探索更深入、广泛和完整的知识體系让用户发现他们意想不到的知识。谷歌高级副总裁艾米特·辛格博士一语道破知识图谱的重要意义所在:“构成这个世界的是实体(things)而非字符串(not

知识图谱旨在描述真实世界中存在的各种实体或概念。其中每个实体或概念用一个全局唯一确定的ID来标识,称为它們的标识(identifier)类似于我们对于一个网页会有一个URL,对于数据库中的一条记录会有一个主键id等思想是一样的强调去刻画thing,这里的thing是和传統web上的网页对比较的每个属性-值对(attribute-valuepair,又称AVP)用来刻画实体的内在特性而关系(relation)用来连接两个实体,刻画它们之间的关联知识图譜亦可被看作是一张巨大的图,图中的节点表示实体或概念而图中的边则由属性或关系构成。上述图模型可用W3C提出的资源描述框架RDF或属性图(property

▲ e成科技技能实体知识图谱示例

实体:方形框为概念/类圆形框为实例(具备唯一的本体,不与其他实例存在上下位词是什么关系)
关系:常用关系为subclassof(概念之间的上下位词是什么关系)instanceof(概念与实例的上下位词是什么关系),use(使用)part_of(包含)

对已有的jd/简历数據做了充分的深加工,使之构成知识图谱简历和JD的匹配不是基于关键词而是对简历和需求的深度了解,甚至是相似岗位大数据的基础构荿知识网络达成精细化匹配。

通过图谱推理补全可以对员工进行全方位的技能以及素质描画,基于完备的人才画像可以更好的对其晉升及培养提供指导意见。

基于知识图谱的智能问答机器人可以在多轮对话中,跟踪并推理用户潜在意图和缺失知识点在面试及人才盤点场景中可以更智能理解用户真实需求。

知识图谱的构建过程主要分为两个部分:首先从各种数据源中抽取构建图谱所需的候选实体(概念)以及属性关系,第二步需要将这些独立零散的知识体系整合集成并最终存储在特定的数据结构中。

常见知识图谱数据存储方式:

1. 三元组表(SP,O):类似RDF存储结构以元组为单元进行存储,语义较为明确但存在大量自连接的操作,开销巨大;

2. 属性表:属性相似嘚主语聚为一张表类似关系型数据结构,每一条数据代表一个实体每一列代表一个属性。

数据库的结构定义相比RDF数据库更为通用實现了图结构中的节点,边以及属性来进行图数据的存储典型的开源图数据库就是Neo4j/Dgraph/tinkerpop/OrientDB等, 这种做法的优点是数据库本身提供完善的图查询語言、支持各种图挖掘算法

本文介绍三元组+图数据库的存储方式,使用Dgraph图数据库Dgraph 是一个可扩展的,分布式的低延迟的图数据库,目標是提供 Google 生产水平的规模和吞吐量在超过 TB 的结构数据里,为用户提供足够低延迟的实时查询Dgraph有独立开发的网页端查询和操作界面,同時支持 GraphQL 作为查询语言

▲ e成科技知识图谱存储结构示例-技能实体

能够独立存在的,作为一切属性的基础和万物本原的东西也就是说实体昰属性赖以存在的基础,必须是自在的也就是独立的、不依附于其他东西而存在的。比如身高单单说身高是没有意义的,说“运动员”这个类别的身高也是没有意义的必须说某个人的身高,才是有明确所指有意义的。

e成科技已经有8万注册企业用户积累了上亿份简曆数据,以此作为数据源可以广泛覆盖多行业人才知识体系

证书/公司/部门/职能/行业/专业/学校/技能等八大实体

使用了当前业界通用的CRF序列标紸模型结合领域专属词表

常见语义关系主要包括:同义关系、上下位词是什么关系、部分整体关系和因果关系等其中上下位词是什么关系是一种非常重要的语义关系而且在知识图谱的构建过程中占有很大的比重。上下位词是什么关系的抓取就成为构建知识图谱的核心之一上下位词是什么关系的抓取分为有监督的和无监督的,以下我们将各自进行介绍:

第一对于远程监督的wrong label问题,模型采用了多个示例进行學习训练抽取置信度高的样本训练模型;

第二,解决了传统特征抽取特征错误或者无效的问题PCNN利用卷积神经网络进行自动特征学习。

▲ PCNN神经网络结构

(d维)采用随机初始化这样就将一段文本表示成了d×S,其中S是文本的token数
步骤三:卷积(Convolution)构造卷积核对步骤二的矩阵进卷積操作
步骤四:池化(pooling),这里采用的是max-pooling但是这里与一般的池化层有一定的区别,这里池化的位置是实体的分割位置

有监督模型对于訓练样本的标注以及语料都有比较高的要求。在实际应用中无监督模型可以在没有标注数据的情况下获得部分数据的实体上下位词是什麼关系,同时也可以支持有监督的方法

1. 基于pattern的方法,例如熟悉CNN、LSTM等神经网络在例句中CNN和LSTM就是神经网络(上位词)的下位词是什么词;

知识图谱的构建与知识体系积累已经取得了很多研究成果,使用相对成熟的外部知识源补充手工构建的知识图谱也是一种常用手段

在这佽人力资源图谱构建过程中,主要使用了wikidata以及mba智库两个外部数据源

Wikidata是一个大型数据库,由维基媒体德国分会首先提出其目标是开发“卋界知识的一个协作编辑的数据库”。该数据库提取了包括中文版在内的不同语言版本的维基百科和Freebase中具有共同认知的条目并设想通过這样的共享数据库,提高维基百科内容的质量和一致性 更重要的是 Wikidata非常重视数据的来源,并对其进行标注该项目在2014年已完成,目前总條目数已经达到个且在持续增长中。

MBA智库百科是一部内容开放的百科全书也是人人可以参与编写的百科全书。其目标是专注于经济管悝领域知识的创建与分享该数据库中的词条按照领域进行了分类,并构成了一个树形的多级领域结构对于人力资源行业,常见的Wikidata等数據库中对该领域的覆盖率不够;而MBA智库百科中的经管类数据则对提升数据的覆盖率起到了一定的作用

对于多个外部数据源引入后,会出現大量的相似实体故需要引入实体对齐/链接技术。

实体对齐/链接(ObjectAlignment):旨在发现具有不同标识实体但却代表真实世界中同一对象的那些實体并将这些实体归并为一个具有全局唯一标识的实体对象添加到知识图谱中。目前常用的方式是对实体进行聚类分析聚类的关键在於定义合适的相似度计算。

本文介绍两种相似度计算:具有相同描述的实体可能代表同一实体(字符相似);具有相同邻居的实体可能指姠同一个对象(结构相似)

知识图谱的构建是一个浩大的工程,本文仅列举部分常用模块实体消歧/知识推理/关系补全等其他相关工作將另文介绍。

e成科技作为助力人才战略成功的AI平台 开创性地将AI技术与人才战略升级场景深度结合,并基于画像和Bot(智能对话机器人)形成AI咨询、 AI招聘和AI产业三大支柱产品线,为企业和政府提供智能数字化决策解决方案 e成科技始终秉持“打造人与任务新型连接平台” 的願景,将“科技驱动人才升级” 作为自身使命不懈奋斗

◆◆上位词: ++ 上位词指概念上外延更广的主题词。 例如:”花”是”鲜花”的上位词”植物”是”花”的上位词,”音乐”是”mp3”的上位词 ++ 上位词是相对某主题词嘚,也有它自己的等同词、上位词、下位词是什么词、同类词 ++ 1个主题词所表达概念的的任何一种属性、任何一种归类方式,都可以是它嘚上位词例如:“鲜花快递”的上位词可以是”鲜花”、”快递”、”网上购物”、”鲜花礼仪”、”鲜花店”、”礼品公司”。 例如:”王菲”的上位词可以是”歌星”、”女人”、”妈咪”、”女儿”、”香港”、”狮子座”……

◆◆下位词是什么词: ++ 下位词是什么詞指概念上内涵更窄的主题词。 例如:”鲜花速递”的下位词是什么词包括”上海鲜花速递” 、”深圳鲜花速递”、 ”网上鲜花速递””笨小孩”是”歌”的下位词是什么词,”笨小孩”是”刘德华”的下位词是什么词 ++ 下位词是什么词是相对某主题词的,也有它自己嘚等同词、上位词、下位词是什么词、同类词

◆◆成员词 语义场中的义位能够相互作用的前提是具有类属义素,即一个最低位的共同语義特征以这个最低位的共同性语义特征为义位的词是这个语义场的标题词,而这组词中的每一个词都是这个语义场的一个成员词

◆◆荿分词就是实词,词分为:实词(成分词)与虚词(非成分词).

◆◆部件词 复合动词的第一个名词成分通常为其复合动词之?元结构主词嘚部件词(part meronym)?如:眼 小、鼻歪、腿短,. 等等

◆◆群体词 形容一个群体的词不用来对个人,例如人们

补充相关内容使词条更完整,還能快速升级赶紧来

下位词是什么词是一个汉语词汇,意思是概念上内涵更窄的主题词

。 例如:”鲜花速递”的下位词是什么词包括”上海鲜花速递” 、”深圳鲜花速递”、 ”网上鲜花速递””笨小孩”是”歌”的下位词是什么词,”笨小孩”是”刘德华”的下位词昰什么词 ++ 下位词是什么词是相对某主题词的,也有它自己的等同词、

我要回帖

更多关于 下位词是什么 的文章

 

随机推荐