nlp 模型(一个深度学习模型能完成几项NLP任务)
在很多人眼里,Salesforce可能是一个陌生的名字,但它其实是一个堪比微软和甲骨文的科技巨头。与许多专注于个人消费者服务的公司不同,Salesforce s的主营业务是CRM系统,这也是迫使其在股东压力下放弃收购Twitter的一大因素。近年来,看到竞争对手依靠AI技术大获成功,拥有大量优质数据并建立了人工智能平台爱因斯坦的Salesforce自然也不甘落后。今天,智能理论带来了爱因斯坦研究所的一项新成果:迪卡侬NLP深度学习模型。
用于机器翻译、文本摘要、问答、文本分类等自然语言处理任务。深度学习的出现一次又一次刷新了最先进的模型性能记录,给研究带来了许多惊喜。然而,这些任务一般都有自己的度量基准,它们的性能只在一组标准数据集上进行测试,这就导致了一个问题:即使这些模型在单个NLP任务中表现良好,但它们的基准设计和架构开发不一定会对NLP全能模型的开发产生积极的影响。
为了探索这些模型的更多可能性,优化它们的权重,我们引入了decaNLP:自然语言十项全能多任务挑战(也是一个大数据集)。本次挑战由十项任务组成:问答、机器翻译、摘要、自然语言推理、情感分析、语义角色标注、关系抽取、任务驱动的多轮对话、数据库查询生成器和代词消解。其目标是寻找能够高质量完成上述10种任务的模型,并探索这些模型与针对特定任务单独训练的模型之间的差异。
为了便于比较,decaNLP使用了一个名为decaScore的基准。
把这十个任务变成问答模式,就变成了一个大的QA模型。
针对这一挑战,我们的具体做法是将十个任务全部转化为问答,提出了一种新的多任务问答网络(MQAN),它可以同时学习这十个任务,不需要任何特定的任务模块和参数。实验之后,MQAN得到了一些有趣的发现:机器翻译和命名实体识别模型在迁移学习、情感分析和自然语言推理方面有相似的领域.
通过比较基准,我们发现MQAN s的多指针编解码结构是其成功的关键,相反的训练策略可以进一步提高网络性能。MQAN虽然定位为NLP全能机型,但是在单个任务中的表现也是可圈可点的。总而言之,它在WikiSQL语义解析任务中取得了最先进的结果,在SQuAD上得分最高,在其他任务中表现良好。
任务和数据集
问题,文本,答案:十个自然语言处理任务
首先,让让我们看一下任务和相关的数据集。这个内容在论文里介绍的比较详细,包括每个任务的历史背景和近期进展,所以我们赢了这里不赘述。上图显示了每个任务的输入输出对的一些例子。
质量保证
问答模型的输入由问题和上下文两部分组成,包含了输出答案所需的信息。对于这个任务,我们使用斯坦福大学的Q & amp一个数据集(SQUAD),上下文是从英文维基百科段落中截取的,答案是从上下文中复制的词序。
机器翻译
机器的输入是源语言文本,输出是翻译后的目标语言。这里我们使用2016年国际口语机器翻译评测大赛(IWSLT)的英德翻译数据作为训练集,2013年和2014年比赛的数据作为验证集和测试集。输入样本来自转录的TED talk,因为它涵盖了大多数自然语言对话主题。虽然这个数据集对于机器学习来说有点小,但是它的大小和其他任务的大小基本相同。
DecaNLP对附加数据没有限制,所以如果你愿意,你也可以引入更多的数据,比如WMT的会议翻译数据。
摘要
这种任务要求模型可以在输入文本后输出文本的摘要。近年来,许多研究者将CNN(美国有线电视新闻网)和《每日邮报》语料库收集成数据集,并在此基础上取得了很多重大进展。我们还为decaNLP挑战引入了这个数据集的非匿名版本。
自然语言推理
NLI模型接受两个输入句子:一个前提和一个假设。该模型需要推断前提和假设之间的关系,并将其归类为矛盾、中立和支持之一。我们使用的是斯坦福大学的多体裁NLI语料库(MNLI)数据集,它是SNLI的升级版,提供了多个领域(语音转写、流行小说、政府报告)的训练样本。
情感分析
情感分析的任务是在输入文本后输出文本所表达的情感。斯坦福大学情绪树数据库(SST)是一个包含电影评论及其对应情绪(积极、中性、消极)的数据集,非常适合这类任务。我们使用它的二进制版本,这样decaNLP模型就可以解析它的依赖关系。
语义角色标注
语义角色标注(SRL),即输入句子和谓语(通常是动词),输出语义角色之间的关系:何时何地,谁对谁做了什么。我们将一个SRL数据集处理成问答格式,并制作了一个新的数据集:QA-SRL,涵盖新闻和维基百科。
关系抽取
关系抽取的目的是从输入文本中抽取属于目标类别的实体关系。在这种情况下,模型需要先识别实体之间的语义关系,然后确定是否属于目标类别。像SRL一样,我们为这项任务制作了一个新的数据集:QA-ZRE。它将实体关系映射到一系列问题,因此提取过程变成了问答形式。
任务驱动的多轮对话
在人机对话系统中,任务驱动的多轮对话的关键是对话状态跟踪,即根据用户演讲与机器人反应,用户有明确的目的,如订餐、订票、购买商品等。还可以跟踪用户在通信过程中发出的请求类型。对于这个任务,我们使用的是英文版的WoZ订餐任务,其中包含了订餐实体、日期、时间、地址等信息。
语义分析
从本质上讲,将自然语言翻译成SQL,然后翻译成数据库查询语句的过程与语义分析密切相关。去年在论文Seq2SQL中,我们介绍了一种可以跳过SQL,让自然语言直接与数据库交互的方法。所以这里还在使用当时的数据集WikiSQL。
代词消解
这个任务针对的不是图灵测试,而是威诺格拉德模型挑战。一个最典型的例子是,市议会拒绝批准示威者,因为他们[担心/宣传]暴力。的主题担心这里是市议会,那么谁是宣传?我们从这个例子开始训练,保证最后的答案来自上下文,但是它的分数不会受到上下文的措辞的影响。
模型分数:十进制分数
多任务问答网络
MQAN是一个多任务问答模型,仅一个深度学习神经网络就可以解决decaNLP挑战的十个任务。这不对于特定的任务,没有任何参数和模块。如上图所示,在输入问题和上下文文本后,模型用BiLSTM对输入进行编码,然后用双重共延调整这两个序列的表示,再用另外两个BiLSTM压缩所有信息,使其可以用于高层计算。增加的自我注意模块可以有效地收集长时记忆,这些信息会被馈入最后两个BiLSTM,得到问题和上下文的最终表征。
因为decaNLP是十项全能挑战,如果每个任务的评分基准是百分制的话,应该是千分制。——加法可以有效避免不同任务的评分偏差。对于问答、自然语言推理、情感分析和语义角色标注,它们的评分基准是归一化F1(NF1);该任务计算ROUGE-1、ROUGE-2和ROUGE-L得分的平均值;机器翻译用BLEU评分;任务跟踪得分和请求跟踪得分的平均值用于推动多轮对话.
除了MQAN,我们还尝试了其他模型,并计算了它们的decaScores。以下是具体分数:
每个模型的评分结果
第一个S2S是一个包含注意机制和指针生成器的序列到序列网络。第二个w/SAtt是S2S的衍生,在编码器的BiLSTM层和解码器的LSTM层之间增加了一层自关注模块(transformer)。CAtt将上下文和问题分解成两个序列,并在编码器上增加附加层;MQAN实际上是带有额外问题指针的CAtt,在表中表示为QPtr。
上表中的数据显示了多任务和单任务之间的权衡:通过在S2S中增加一个额外的注意模块,该模型可以更有效地从单一序列的问题上下文中提取有效信息,从而大大提高其在SQUAD和WikiSQL上的性能;在前者的基础上,将上下文和问题作为独立的输入序列,该模型在大多数任务上表现较好,但在MNLI和MWSC数据集上性能直线下降,这不难理解。自然语言推理和代词消解需要结合上下文和问题,一旦分离,模型就失效了;为了解决这个问题,QPtr引入了一个额外的指针,可以发现该模型在MNLI和MWSC上的性能要优于S2S。
学习新任务时MQAN预培训/直接培训之间的差距
标签:任务模型数据
- 1bat的大数据(BAT的大数据来源)
- 2三星s8屏幕上端2(三星s8屏幕上端2个按键)
- 3三星屏幕坏了如何导出(三星屏幕摔坏了如何导出数据么)
- 4红米3x怎么关闭自动更新(红米k40s怎么关闭自动更新)
- 5微信上防止app自动下载软件怎么办(微信上防止app自动下载软件怎么办啊)
- 6押镖多少钱(押镖一个月有多少储备金)
- 7瑞星个人防火墙胡功能(瑞星个人防火墙协议类型有哪些)
- 8cf现在等级是多少(cf等级2020最新)
- 9老滑头多少条鱼(钓鱼老滑头有什么用)
- 10WPS自动调整语法(wps如何修改语法)
- 11dell控制面板防火墙(dell的防火墙怎么关闭)
- 12丑女技能升多少(丑女技能需要满级吗)
- 13智能家居系统怎么样(智能家居系统好吗)
- 14戴尔屏幕(戴尔屏幕闪烁)
- 15y85屏幕信息(vivoy85息屏显示时间怎么设置)
- 16魅蓝note3屏幕出现方格(魅蓝note屏幕竖条纹)
- 17v8手指按屏幕(触屏手指)
- 18金为液晶广告机(液晶广告机lb420)
- 19三星显示器怎么校色(三星显示器 调色)
- 20hkc显示器dvi音频(hkc显示器有音响么)
- 21康佳液晶智能电视机(康佳液晶智能电视机怎么样)
- 22做液晶画板电脑(做液晶画板电脑怎么操作)
- 23液晶屏极化现象原理(液晶屏极化现象原理是什么)
- 24企业网络安全防火墙(企业网络防护)
- 256splus黑屏屏幕不亮(苹果6s plus屏幕突然黑屏)
- 26充电导致屏幕失灵(充电导致屏幕失灵怎么办)
- 27超极本屏幕旋转(笔记本电脑屏幕旋转,怎么转过来?)
- 28igmp防火墙(防火墙配置ipv6)
- 29荣耀王者多少经验(王者荣耀经验多少一级)
- 30lol老将还剩多少(qg老将)