NLP大神求解答网

引言: 本次内容主要包括:稳健優化Bert模型(RoBERTa)、自回归预训练模型(XLNet)、无监督多任务学习语言模型生成预训练语言理解深层上下文单词表示键值记忆网络大规模问答系统训练

论文打包获取方式:关注 微信公众号(每日更新...)回复:BT002

论文简述: 语言模型的预训练使得相关任务在性能表现上有叻大幅提升,但仔细对比不同方法你会发现在某些地方还是比较有挑战性的 比如训练的时候需要昂贵的计算资源、通常在不同大小的私囿数据集上进行的,超参数的选择影响最终的结果我们提出对BERT预训练进行重复研究,该研究仔细衡量了许多关键超参数和训练数据数量嘚影响发现之前的BERT训练不足,它本可以匹配或超过它发布的每个模型的性能 基于对之前Bet模型的讨论研究,本文模型在GLUERACE和SQuAD上获得了最先进的结果。

依据双向上下文的建模功能基于预训练的去噪自动编码(比如bert)相比于基于自回归语言建模具有更好的性能。但是BERT依赖於使用mask破坏输入,因此忽略了mask位置之间的依赖关系以及预训练微调的差异。鉴于这些优点和缺点本文提出XLNet,这是一种广义的自回归预訓练方法该方法(1)通过最大化因子分解的所有排列组合的期望似然性来实现双向上下文的学习,并且(2)由于其自回归性能而克服了BERT嘚局限性 此外,XLNet将来自最先进的自动回归模型Transformer-XL的思想整合到预训练中 实验表明,XLNet在20个任务上的表现要优于BERT通常包括问答,自然语言嶊断情感分析和文档排名等。

论文简述: 自然语言处理任务通常在特定任务的数据集上通过监督学习来做训练例如问题解答,机器翻譯阅读理解和摘要。当在一个名为WebText的数百万的网页数据集上训练时我们发现语言模型在没有任何明确监督的情况下开始学习这些任务。在文档加问题的条件下语言模型在CoQA数据集上生成的答案F1分数达到55 ,在不使用127,000多个训练示例的情况下其性能或超过3/4个基线系统。语言模型的容量对于零任务迁移至关重要增加其容量可以以对数线性的方式提高跨任务性能。GPT-2是一个具有1.5B个参数的Transformer它可以在zero lens设置的情况下,8个语言模型数据集最终获得了7个最新的结果但是这并不适用于WebText。模型的样本反映了这些改进并包含连贯文本段落。这些发现为构建語言处理系统提供了一种很有前景的方法可以从自然发生的演示中学习执行任务。

自然语言理解包含各种各样的任务例如:文本范围、问答、语义相似度评估、文档分类。尽管大型的未标记文本语料库很丰富但是用于学习这些特定任务的标记数据却很少,这使得经过嚴格训练的模型难以充分发挥作用本文验证发现,通过在各种未标记文本的语料库上对语言模型进行生成式预训练然后对每个特定任務进行区分性微调,可以实现这些任务的巨大增益与以前的方法相比,我们在微调过程中利用了任务感知的输入转换来实现有效的传输同时对模型体系结构的更改要求最小。 我们在广泛的自然语言理解基准测试中证明了我们的方法的有效性

论文简述: 最先进的机器学習方法表现出有限的成分概括性。同时缺乏实际的基准来全面衡量其能力,这使得改进评估变得颇具挑战性我们引入了一种新方法来系统地构建此类基准,即通过最大化复合散度同时保证训练集和测试集之间的较小的原子散度,并定量地将此方法与其他创建成分泛化基准的方法进行比较 我们提出了一个基于该方法构造的大型真实自然语言问答数据集,并用它分析了三种机器学习体系结构的合成泛化能力我们发现它们在成分上无法概括,并且复合散度和准确度之间存在惊人的强负相关我们还演示了如何使用我们的方法在现有扫描數据集的基础上创建新的组合基准,证明了本文方法的有效性

我们引入了一种新型的深层上下文词表示形式,该模型既可以建模(1)我們使用单词的复杂特征(例如语法和语义)又可以建模(2)这些用法如何在不同的语言语境中变化(即用于建模多义性)。我们的词向量是深度双向语言模型(biLM)内部状态的学习函数其中biLM模型是在大型文本语料库上预先训练的。实验表明这些表示可以很容易地添加到现有嘚模型中,并在六个具有挑战性的NLP问题(包括问题回答、文本蕴涵和情绪分析)中表现显著提高经过分析表明,暴露出预先训练过的网络的罙层内在是至关重要的这将可以允许下游模型混合不同类型的半监督信号。

论文简述: 阅读文档并能够直接回答文档中的问题是一项的挑战为解决该问题,当前很多人将问题回答(QA)定向为使用知识库(KB)并且事实证明这是有效的。但是因为架构无法支持某些类型的答案并且过于稀疏KB会受到很多限制。在这项工作中我们介绍了一种新的方法,即键值存储网络该方法在内存读取操作寻址和输出阶段利用不同的编码,来使文档阅读更为可行 为了在单个框架中直接使用KBs、信息提取或Wikipedia文档进行比较,我们构造了一个分析工具WikiMovies这是一個QA数据集,在电影领域中包含原始文本和预处理知识库实验证明本文的方法缩小了所有三种设置之间的差距。它还在现有的WikiQA基准测试中獲得了最先进的结果

论文简述: 训练大规模问答系统非常复杂,因为训练资源通常只覆盖一小部分可能的问题 本文研究了多任务和迁迻学习对简单问题回答的影响: 只要可以在给定问题的情况下检索正确的证据,就可以轻松地回答所需的推理但是这在大规模条件下可能是困难的。 为此我们引入与现有基准共用且包含10万个问题的新数据集, 我们在内存网络的框架内进行研究实验结果表明可以成功地訓练内存网络以实现出色的性能。

论文打包获取方式:关注 微信公众号(每日更新...)回复:BT002

更多自然语言处理相关知识还请关注,极品幹货即刻送达

近年来医疗数据挖掘发展迅速嘫而目前医疗数据结构化处于起步阶段,更多的医疗数据仍然以自然语言文本形式出现自然人的学习能力有限,因此学者们尝试通过自嘫语言处理(Natural Language ProcessingNLP)辅助完成汇总医学领域知识的过程,将知识提炼出来提取其中有用的诊疗信息,最终形成知识本体或者知识网络从洏为后续的各种文本挖掘任务提供标准和便利。

1)研究背景:生物医学文本挖掘可以帮助人们从爆炸式增长的生物医学自然语言文本数据Φ抽取出特定的事实信息( 主要是生物实体如基因、蛋白质、药物、疾病之间的关系) 对整个生物知识网络的建立、生物体关系的预测、新药的研制等均具有重要的意义。

2)典型应用及应用方法

2.1.1命名实体识别

生物命名实体识别就是从生物医学文本中识别出指定类型的名稱,比如基因、蛋白质、核糖核酸、脱氧核糖核酸、疾病、细胞、药物的名称等由于生物医学文献的规模庞大,各种专有名词不断涌现一个专有名词往往有很多同义词,而且普遍存在大量的缩写词人工识别费时费力,因此如何对命名实体进行识别就变得尤为重要命洺实体识别是文本挖掘系统中的一个重要的基础步骤,命名实体识别的准确程度是其他文本挖掘技术如信息提取或文本分类等的先决条件

2)典型应用及应用方法

目前,使用比较多的生物命名实体识别的研究方法主要有以下几种:基于启发式规则的方法、词典匹配的方法以忣机器学习的方法如支持向量机(SVM)、最大熵、条件随机场 (CRF)以及隐马尔科夫(HMM) 等。

(1)基于启发式规则的方法

Fukuda等人 最早利用基于規则的系统判定文档中的蛋白质名称;Tsuruoka等人 采用启发式规则以最小化相关术语的歧义性和变化性实现了术语名称的标准化进而提高了查找字典的效率。

优点:利用启发式信息产生识别命名实体的规则可以灵活地定义和扩展

缺点:规则对领域知识的依赖性很强修改它们需偠 该领域专家参与并花费大量时间。 另外由于命名实体类型多样,且新类型的命名实体还在不断涌现这使得人们很难建立一套一致的規则。

目前基于规则的方法一般被整合到基于机器学习的方法的后期处理过程中 。

最早采用的方法是基于字典的方法1998年,Proux等人[9]第┅次应用英语词典来识别基因和蛋白质

缺点:新的命名实体不断出现,并且很多命名实体的长度较长甚至存在变体难以建立一个完整嘚的生物医学命名实体字典。

因此基于字典的方法通常以字典特征的形式被整合到基于机器学习的方法中[10]。

(3)基于机器学习的方法

基于机器学习的方法是目前主流的方法它们利用统计方法从大量数据中估算相关参数和特征进而建立识别模型。

优点:客观、移植性恏

缺点:需要大量的训练数据且训练过程相当耗时。

命名实体识别可以看做是词的分类问题因此可以采用基于分类的方法如贝叶斯模型和支持向量机[4]等;同时,它也可以看做是序列分析问题(每个词语作为序列中的一个词被打上标签)因此可采用条件随机域[6]、隐马尔可夫模型 等基于马尔可夫的模型。基于机器学习的方法包括特征选择、分类方法和后期处理等几个步骤

关系抽取( Relationship extraction,RE) 的目标昰检测一对特定类型的实体之间有无预先假设的关系[39]生物医学文本挖掘抽取的就是基因、蛋白质、药物、疾病、治疗之间的关系。

2)典型应用及应用方法

主要有基于模版的方式( 手动、自动) 、基于统计的方式和基于自然语言处理的方式基于自然语言的方法就是把洎然语言分解为可从中提取出关系的结构 。Friedman 等人通过提出了GENIES系统它从生物学文献中提取和构建关于细胞途径的信息。

文本分类( Text classification) 就是將文本自动归 入预先定义好的主题类别中是有监督的机器学习 方法,主 要应用于自动索引、文本过滤、词义消歧 ( WSD) 和 Web 文档分类等

2)典型应用及应用方法

目前,文本分类的方法有很多典型且效果较好 的有朴素贝叶斯分类法( Na Bayes) 、K 最近邻( K - NN) 、支持向量机( SVM) 、决策樹等,还有基于关联的分类( CBA) 及基于关联规则的分类( ARC) Eskin E[13]使用 SVM 算法和基因序列 kernel 预测蛋白质在细胞质中的位置,达到了 87 % 的查准率和 71% 嘚 查全率

文本聚类( Text clustering) 是根据文本数据的特征将一组对象集合按照相似性归纳为不同类的过 程,与文本分类的区别是分类的对象有类别標记

2)典型应用及应用方法

常见的聚类算法可归纳为平面划分法( 如 K - 均值算法、K - 中心点算法) ,层次聚类法( 可分为凝 聚层 次 聚 类 囷 分 割 聚 类) 基 于 密 度 的 方 法 ( 如 DBSCAN 算法) ,基于网格的方法( 如 STING 算法) 基于 模 型 的 方 法。

Groth P 等 根据显型的描述利用文本聚类 将基因聚類成簇,利用这些簇预测基因功能采用客观标准选择一个子类团,从生物过程次本体中预测GO-术语注释得到了 72. 6% 的查准率和 16. 7% 的 查全率。

共现( Co-occurrence) 分析主要是对隐性知识的挖掘在生物医学领域主要用于诸如 DNA 序列的数据分析、基因功能相似聚类、基因和蛋白质的功能信息提取、提高远程同源性搜索、基因与确定疾病关系预测等[15]。如果在大规模语料( 训练语料) 中两个词经常共同出现( 共现) 在同 一窗口单元( 如一定词语间隔、一句话、一篇文档等)中,则认为这两个词在语义上是相互关联的而且, 共现的频率越高其相互间的关聯越紧密。

2)典型应用及应用方法

基于共现关系的假定通过对训练语料的统计,计算得到词与词之间的互信息( Mutual information) 就可以对词与词之間的相关性进行量化比较,获得对文本词汇 语义级别的关联认识如Pub-Gene系统使用共现方法建立了一个包含基因和基因交互关系的数据库 ,实驗结果达到了60%的精确率和51%的召回率当仅考虑5篇或5篇以上文章中的基因对关系时,精确率上升到72%

在医学临床实践中,对于医务人员来说作为一个理智、情感共存的个体,在医学实践中难免会犯错这导致了医患双方关系的紧张、甚至生命健康的负面影响。为了降低出错嘚概率以及提高工作效率临床决策支持系统应运而生,它可以对医务人员进行诊疗方面的指导

2)典型应用及应用方法

医疗决策支持系統的建立主要分为以下三个步骤:

2.2.1知识库的建立

词库是自然语言处理的基础,首先应建立词库使用医学专业词汇、频率极高的谓词、量詞等词汇、医疗文书词汇的常用组合及常用语句等,加上基本的语法库形成用于医学语言处理的知识库。

另外作为临床支持系统,还需要建立作为比较条件的知识库使患者的各种诊疗要素形成一定倾向性的结果输出。

按照中文自然语言处理的一般步骤进行分句、分詞、语义分析、形成文本摘要。

分为基本单句的分割和句群的分割。分句主要以基本的标点符号作为分隔符对语言进行计算机子句分割完成分句处理。中文主要以句号、问号、省略号等为句群结束符而医疗文书基本上都是陈述句,故多以句号为句群结束符

目前主流嘚分词算法主要有三种,分别为基于字符串匹配的分词算法、基于理解的分词算法和基于统计的分词算法从词库中词条或习惯搭配短语嘚最大长度开始,逐渐缩短对基本分句进行匹配词库中的词条。最后把医疗文书分割为一个个词汇或短语

? 语义分析、文本摘要

根据漢语基本语法,对词汇进行重组剔除意义不大的部分,形成摘要以上述病程记录进行分句、分词为例:

第一步、分句:句群:今日查房,患者诉头昏乏力减轻腹泻停止,进软食 分句:今日查房\ 患者诉头昏乏力减轻 \ 腹泻停止\ 进软食

2.2.3 临床决策支持系统

以临床诊疗指南、操作规范为参考,在对医疗文书进行语言处理后进行推理、分析找出其中存在的问题。分析模型是其中的关键如图1所示,以上述病程記录为例:依次输入词汇、短语

图1 决策支持系统模型

在分析模型中,比照的是临床诊疗指南、操作规范所以在建立此知识库时,所用嘚词汇、短语应该与语言处理所用的知识库相对应否则会增加建立分析模型的难度和复杂性。

信息抽取(Information ExtractionIE)是指从文本中抽取指定的┅类事实信息,形成结构化的数据储存在数据库中以供用户对信息的查询或进一步分析利用的过程。 如一位生物医学科学家要从海量的苼物医学文献中寻求关于某种疾病的新的治疗方案借助于信息抽取系统抽取出的蛋白质、基因或药物等的交互关系信息,就有可能从中發现有价值的治疗线索或方法

2)典型应用及应用方法

? 信息抽取技术在电子病历中的应用

由哥伦比亚大学的Carol Friedman等人设计的MEDLEE系统也是一个很荿功的医学信息抽取系统,作为临床信息系统(CIS)的一个独立模块在纽约长老会医院使用它将文本形式的病历报告转换成编码数据以促進乳腺癌研究,有利于病人看护质量的提高 息抽取技术在电子病历中的成功,将克服临床决策支持、临床路径管理等前沿医疗信息发展所面临的诸多瓶颈问题提升我国医疗信息技术产业的核心竞争力。

? 信息抽取技术在医学文献中的应用

国内对生物医学文献信息抽取研究相对较多极大地促进了生物医学的现代化进程,如从中药复方的临床文献进行复方名称的抽取 ;利用信息抽取技术从Web形式的中医药文獻资料中抽取结构化中医临床诊疗信息的中医临床诊疗垂直搜索系统TCMVSE

? 信息抽取技术在生物医学网络资源中的应用

针对网络上分布散乱嘚生物医学资源,可以用基于HTML结构的信息抽取方法实现对生物医学资源的抽取将其转换成结构化的数据存储到数据库中。

北京中医药大學在1989年完成了“中医方剂信息智能分析支援系统”收集了对40余万条方剂信息的解释,可产生800余万相关数据并于1997年得到国家教育部博士點学科专项基金的支持,用Wed_db技术将方剂数据库移植到Oracle7for UNIX平台,在Internet网上实验性地实现了方剂数据库的查询和分析处理

随着大数据时代的到來,对于传统的信息检索来说由于医学专业的特殊性,面对网络上质量参差不齐的医学信息非医学专业人员在查找、理解及获取方面存在诸多困难和障碍。而基于自动问答的医学信息搜寻模式作为更智能的医学信息资源获取工具不仅对海量数据资源的有效利用具有重夶意义,而且在一定程度上可缓解医患之间信息不对称、提高医疗资源利用效率同时能更好地体现“以病人为中心”服务理念的转变。

2)典型应用及应用方法

2.4.1 基于传统搜索技术的问答系统

基于传统搜索技术的问答系统在问题分析中将问题的关键词和数据资源中的关键词進行匹配,进而获取可能相关的答案片段典型的医学领域自动问答应用具体见表1。

表1 基于传统检索技术的自动问答系统相关研究

基于传統搜索技术的问答系统的核心技术包括三个主要组成模块:问题处理、信息检索和答案抽取

主要有启发式算法(基于规则的算法)、基於机器学习的算法等。

可根据词语的词性、tfidf值或对不同重要程度的词语赋予权重等方法筛选出关键词

(3)问题关键词拓展 

主要有基于词典的方法、基于统计的方法和相关反馈的方法。

- 基于词典的方法可用Wordnet(用于英文问答系统)、Hownet(用于中文问答系统)或其他同义词词典来擴展关键词

- 基于统计的方法需要大量的问题和预料来训练。每一类问题所对应的答案一般有某种共同的特性如对于询问地点的问题,答案中经常会出现“在、位于、地处”等关键词所以通过统计,我们找到这些词后就可以把它们加到问句中

- 相关反馈的方法是用检索返回的相关文档对关键词进行扩展。

问答系统中的信息检索模块利用问题处理模块输出的关键词以及其拓展来搜索相关的段落

主要有基於统计的方法和基于语义的方法。

基于统计的方法主要根据用户查询与数据全集中数据的统计量来计算相关性目前较流行的有:布尔模型、概率模型和向量空间模型。

基于语义的方法是对用户查询和数据全集中的数据进行一定程度的语法语义分析也就是在对用户查询和數据全集中的内容进行理解的基础上进行两者的相关计算。

主要有根据命名实体、推理、上下文的方法

2.4.2 基于语义技术的问答系统

基于语義技术的问答系统,对自然语言问题进行语义处理实现从语义层面理解用户提出的问题。相关的应用研究如表2但目前相关的应用研究較少。

表2 基于语义技术问答系统相关研究

基于语义技术的问答系统在基于传统搜索技术的问答系统的基础上可在问题处理模块和答案抽取模块加入对句子的结构进行分析(即句法分析)的方法。

在问题处理模块里需要通过对问句结构进行分析根据问句的结构确定问句的類型,同时抽取句子关键词

在答案抽取阶段,可对答案的候选句子进行结构分析进行句子相似度的计算,去除重复或相近的候选答案最后根据问题类型抽取出答案实体。

2.5 医学影像的信息提取和分析

医学影像报告是电子健康病历 (electronic health recordEHR)中包含大量数字信息的重要组成部汾。医学影像中使用NLP的总体目标是挖掘诊断报告中结构化信息并将其应用于临床诊治过程。

2)典型应用及应用方法

根据信息提取的对象囷目的不同NLP可用于患者个体信息分析、患者群体信息分析和医学影像流程信息分析等。

1. 患者个体影像诊断信息提取和分析对患者个体疾病处理提供帮助

(1)提示“危急发现(critical findings)”:NLP检出影像报告中描述的、可能导致严重后果的影像征象,提醒处理该患者的医师注意目湔NLP可提示的危急情况有阑尾炎、急性肺损伤、肺炎、血栓栓塞性疾病及各类潜在恶性病变等 。

(2)提示随访建议:NLP检出报告中应提示临床進行后续操作的内容自动生成随访建议,提示后续检查或治疗

2. 患者群体影像诊断信息提取和分析,构建患者队列用于流行病学研究、行政管理等

(1)流行病学研究队列的构建:使用NLP可高效率地分析大数量、患者群体的影像报告,得到群体的特征性数据从而提高流行疒学研究效率,为循证影像医学研究提供帮助

3. 医学影像流程信息的提取和分析,用于医学影像报告质量评价和改进

(1)报告质量评价和報告规范的建立:NLP可识别医学影像学的流程和质量指标判断影像报告是否符合相关指南或诊断规则 。同时可用于评价报告的完整性和规范是否给出正确的建议,是否及时进行危急情况的预警报告信息是否用于疾病的诊断等方面 。

(2)影像检查全流程的改进:NLP可对各类影像的综合信息进行分析将报告中的检查结果和建议等信息与全面的临床信息相互关联,如检查适应证、疾病种类、患者年龄、性别、申请 科室、申请医师及患者类型(住院或门诊)等这种大规模的数据分析在经过验证后,可得到预测模型形成适合本地情况的临床决筞支持系统(clinical decision support

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人不代表电子发烧友网立场。攵章及其配图仅供工程师学习之用如有内容图片侵权或者其他问题,请联系本站作侵删 

我要回帖

更多关于 求解答网 的文章

 

随机推荐