- 知识图谱通识自监督的实证研究
本文旨在研究知识抽取技术对于不同规模和架构的语言模型训练的影响以及如何在各种下游 NLP 任务中进行有效的迁移学习。研究发现,在预训练中选取适当的知识可以显著提高语言模型的泛化性能,数据量越大效果越好,而平衡不同方面的抽样策略可以提高编码解 - Wav2Seq:使用伪语言预训练语音到文本编解码模型
Wav2Seq 是第一个用于预训练语音数据的自监督方法,采用了伪语言作为紧凑的离散表示,并制定了自监督伪语音识别任务 - 将音频输入转录为伪子词序列。
- 生物医学文献的面向实体和事实的抽象摘要生成
本文提出了一种基于实体驱动事实感知的框架,用于训练端到端的基于 Transformer 的编码 - 解码模型以摘要生物医学文章。在使用知识库中的命名实体和事实进行指导的情况下,EFAS 能够实现比标准源文档到摘要设置更准确的实体级事实准确性 - 通过阅读 API 文档生成未知库代码
本篇研究是探讨 open-domain code generation 领域中的挑战 --- 对于不同编程社区中经常变化和扩展的函数和类的生成,特别是当涉及到未知的代码库时。作者提出了一个框架,利用 API 文档中的信息生成代码,并进行了相 - 探讨语言模型架构的扩展与迁移在机器翻译中的应用
该研究论文探讨了语言模型和编码器 - 解码器模型在机器翻译中的性能影响,结果表明:语言模型在小规模下的表现差,但随着参数数量的增加,其性能逐渐接近于编码器 - 解码器模型,语言建模和原因屏蔽会对翻译质量产生不利影响,而当与全局可视屏蔽相配合 - EMNLP胸部 X 光报告生成的弱监督对比学习
本篇论文提出了一种弱监督的对比损失方法,用于提高放射学报告生成的文本质量,实验结果表明该方法在两个公共基准数据集上在临床正确性和文本生成指标方面优于以前的工作。
- 通过对比学习缓解摘要文本生成中的曝光偏差
提出使用对比学习来减少低质量文摘的可能性,同时增加黄金文摘的可能性,以解决 Encoder-decoder 模型在训练和推理中的偏差问题,并在实验中证明这种方法有效地提高了最先进模型在不同数据集上的性能。
- 来自预训练文本到文本模型的可扩展句子编码器
本研究利用文本到文本转换器(T5)提供了对句子嵌入的首次探索。通过 3 种提取 T5 句子嵌入的方法,本研究建立了一个新的句子表示转移基准 SentGLUE,并在语义文本相似性(STS)等方面超过了 Sentence-BERT 和 SimC - 双向训练 Transformer 的手写数学表达式识别
使用 transformer-based decoder 替换 RNN-based models,提出一种新的训练策略并采用数据增广方法,实验结果表明此模型提高了 CROHME 2014 数据集的 ExpRate 达到 2.23%,CROH - ACL专注注意力改善基于文档的生成
本文介绍了两个文档基于生成任务:维基百科更新生成和对话响应生成。我们提出了两种新颖的大规模预训练编码器 - 解码器模型并提供了更强大的 BART 基线。我们的方法在自动化和人类评估方面均优于现有方法。
- EMNLP稀疏注意力与线性单元
本研究介绍了一种名为 ReLA 的新型的、可实现稀疏注意的模型,该模型采用 ReLU 激活函数来代替 softmax 函数,通过额外的门控函数或专门的初始化实现了训练稳定性。实验结果表明,ReLA 模型在机器翻译任务中表现良好,且实现效率高 - OpenViDial:一个包含视觉背景的大规模开放域对话数据集
本文提出了一个大规模多模态对话数据集 OpenViDial,并基于该数据集提出了一族多种编码器 - 解码器模型,使用了文本和视觉上下文。结果表明,多模态特征的整合可以显著提高对话生成的质量,是实现大规模多模态对话学习的重要一步。
- ACL利用词汇逻辑对齐在语义解析 SQL 查询方面的潜力
本研究提出 Squall 数据集,通过丰富文本 Sql 表达,探索了音标级别的监督对于优化语义解析任务表现的影响,并提出了两种方法:(1) 监督注意力;(2) 辅助任务,以提高基准测试中的执行准确性。
- 2020 年 IWSLT 挑战赛:ON-TRAC 贯穿端到端和同时语音翻译联盟
该研究论文讲述了 ON-TRAC Consortium 翻译系统在 2020 年 IWSLT 评估活动中开发的两个挑战赛轨道(离线语音翻译和同传语音翻译)的使用,主要使用基于注意力机制的编码器 - 解码器模型进行训练,该模型实现了数据增强和 - 使用部分假设选择实现低延迟序列到序列的语音识别和翻译
本文针对编码器 - 解码器模型在语音翻译等序列任务中的精度和延迟问题,提出了三种延迟降低技术,包括使用单向注意力机制,实验证明该方法可以降低 83% 的延迟并牺牲 1% 的 WER(相对于离线转换)。同时还探讨了其在低延迟语音翻译上的应用。
- 降低重复语句生成的令牌损失动态重新加权
本文通过研究循环神经网络(RNN)和 Transformer 模型,针对自然语言生成模型(NLG)中出现的重复生成问题,提出了通过不同化的权重调整,学习不同难度的单词和解决重复生成问题的方法
- ICCV人类认知风格下使用整体上下文信息进行图像标题生成的探索
本文探讨利用类人认知风格,即建立对要描述的图像和构建的句子的整体认知来提高计算机图像理解能力。针对现有模型生成句子时没有考虑后续单词对整个句子生成的影响,本文首先提出了一种利用双向 LSTM 的相互援助网络结构(MaBi-LSTMs),以获 - EMNLP智能人工代理数据增强的可控文本生成
通过文本生成技术,使用编码器 - 解码器生成模型来增加受训人工智能代理的训练数据,从而实现更快地开发新功能。该方法需要直接优化,适用于有限的数据,并明显优于以往的受控文本生成技术。此外,生成的数据用作外在意图分类任务的附加训练样本,增强了低 - ACL评估序列到序列模型的增量性
该研究提出三个新的指标以评估具有和不具有注意力机制的 RNN 的行为,发现不同模型类型处理句子的方式存在关键差异,这揭示了人类和注意力中心方法在语言处理方面的行为上存在的显著对比。
- ACL编码 - 解码神经网络作为英语过去时屈折的认知模型
本文研究了现代编码器 - 解码器模型在处理英文过去式方面的表现,发现其表现不如传统的基于规则的模型,因此我们认为目前还没有足够的证据证明神经网络对于此任务的性能很好。