- 通过仿真向 Seq2Seq 模型注入结构化归纳偏置
一项关于 seq2seq 神经架构中结构变换的结构性归纳偏差的研究,通过将 Transformer 预训练来模拟有限状态转换器(FSTs),说明了如何在少量数据上实现系统性泛化和 FST 样任务的少样本学习。
- 具有语法感知的复数神经机器翻译
本研究提出了一种将语法信息与复数编码器 - 解码器结构相结合的方法,通过注意力机制从源端到目标端联合学习单词级和语法级注意力分数,可以直接集成到任何现有的序列到序列框架中,并在两组数据集上表现出很大的 BLEU 分数提高,特别是在具有显著语 - ICMLEM-Network: 序列学习的 Oracle 辅助自蒸馏技术
EM-Network 是一种新的自蒸馏方法,可通过目标信息进行监督式序列到序列学习,具有比仅使用源输入更好的预测,可用于语音识别和机器翻译等领域。
- T5-SR: 一种用于语义解析的统一 Seq-to-Seq 解码策略
该篇论文分析了语义解析 (seq2seq) 面临的挑战,如预测语义信息和处理自然语言查询和 SQL 之间的语义连贯性,并提出一种名为 SR 的解码策略,包括一种新的中间表示 (SSQL) 和用于解决这些难题的得分再评估的 reranking - ACL双向 Transformer 再排名用于语法错误纠正
通过采用 BERT 风格的自注意机制,我们提出了一种双向 Transformer 选手 (BTR),可以找出由预训练 seq2seq 模型产生的候选句子中概率偏差的问题。与 T5-base 相比,BTR 在 CoNLL-14 和 BEA 测 - 评估印度语跨语言语义分析
为了解决印度语言语义分析数据集缺乏的问题,提出了适用于 11 种印度语言的 Inter-bilingual Seq2seq 语义分析数据集 IE-SEMPARSE,并在不同的训练测试策略下评估了现有的多语言 seq2seq 模型。
- ACL概念预训练下的低资源组合语义分析
本文提出的基于 seq2seq 的模型结构,可以在零样本或少量样本的情况下,通过对新领域的元数据进行编码,自动实现领域自适应的语义解析,并通过在 Wikidata 上预训练以增强概念感知能力,从而在 TOPv2 和 SNIPS 数据集上优于 - 基于 Seq2Seq 转移系统的指代消解
本文提出一种基于文本到文本 (seq2seq) 模式的指代消解系统,它使用转移系统来预测提及和链接,使用多语言 T5 作为底层语言模型,在 CoNLL-2012 数据集上获得了 83.3 的 F1-score,远高于之前的最优结果;在 Se - 处理 SPARQL 神经网络机器翻译中知识库元素的复制机制
本研究提出了在神经 SPARQL 查询生成中整合一个复制机制,以解决目前方案无法处理模型未见过的知识资源、类和属性的问题,并使用两种 Seq2Seq 体系结构(CNN 和 Transformers)进行说明。该层使模型直接从问题中复制 KB - EMNLPFRSUM:提高事实鲁棒性以实现忠实的抽象摘要
本文从事 Seq2Seq 模型中摘要不忠实的问题,并从事实鲁棒性的角度对现有系统的忠实度进行研究。针对当前存在的问题,作者提出了一种名为 FRSUM 的新的训练策略,能够在生成文本时防御显式和隐式的对抗信息,从而提高 Seq2Seq 模型的 - EMNLP精准至点:针对忠实和丰富的文本生成的敌对性增强
本文针对预训练 Seq2Seq 模型的鲁棒性问题,提出了一种新的针对 Seq2Seq 模型提高准确性和信息性的敌对增强框架 ——AdvSeq,通过隐式敌对样本和交换敌对样本来提高 Seq2Seq 模型的鲁棒性,实验结果表明 AdvSeq 显 - Basaa 语言的声调预测和正字转换
使用 seq2seq 模型结合 BERT 和 mT5 算法,针对录入非官方 Basaa 语言的基督教传教士的文字进行转写,取得了 CER 和 WER 等指标优秀的结果。
- AlexaTM 20B: 使用大规模多语言 Seq2Seq 模型进行小样本学习
本研究旨在探究多语言大规模序列到序列模型 (seq2seq),其中包括噪声处理和因果语言建模 (CLM) 的混合预训练模型,对于几个任务比解码器模型更具备有效的学习能力。我们在训练了一个 200 亿参数的 Alexa 教师模型( Alexa - NeRF 注意力机制的端到端视图合成
本文提出了一种基于 NeRFA 的 seq2seq 形式,用于视图合成,在四个数据集上优于 NeRF 和 NerFormer,并在单场景视角合成和类别中心的新视图合成两个方面取得了最新技术成果。
- 文本摘要的通用上下文重写框架
通过将抽取和生成的方法相结合,利用生成模型提高了抽取式摘要的简洁性和可读性。本研究提出了上下文感知的重写方法,通过 group-tag alignments 将传统的抽取方式转化为生成方式,取得了显著的 ROUGE 分数提升。
- 利用细分至粗分的抽象和推理方法解决数学应用问题
本文提出一种 fine-to-coarse 建模方法来解决数学单词问题,通过迭代地组合低级操作数以预测高级操作符来抽象问题并从底向上推理解决运算符,从而更好地捕捉本地细粒度信息和全局逻辑结构。使用 Math23k 和 SVAMP 数据集进行 - 词汇和语法处理对从自然语言生成代码的影响
本文研究了 TranX 的 seq2seq 架构在自然语言到代码翻译过程中的关键组件,包括语法约束、词汇预处理、输入表示和复制机制,并通过使用 BERT 编码器和基于语法的解码器来研究这些组件的影响。研究表明,在当前的自然语言到代码系统中, - ACL将释义推离原句:一种多次循环的释义生成方法
本文提出了 BTmPG(Back-Translation guided multi-round Paraphrase Generation) 框架,通过多轮的改写和反向翻译保留语义信息来增加生成的改写句子与原始句子的差异性,并在人工评价和自 - ACL任务导向语义解析中的 Transformer 诊断
本文研究了 BART 和 XLM-R 两种目前最先进的基于 transformers 的任务导向语义解析模型在单语和多语境下的表现,实验证明它们不仅在消歧意图 / 槽方面有困难,而且在生成句法上有效的语义框架方面也遇到了问题,主要原因是在把 - ACLMLBiNet:跨句子事件集合检测网络
本文提出一种基于 Seq2Seq 的多层双向网络(MLBiNet)模型,用于在跨句子的情况下集体检测多个事件,并利用信息聚合模块和多层双向编码器来编码语义信息和事件之间的关联,从而提高跨句子检测的性能。