- ACLF-MALLOC: 神经机器翻译中的前馈式记忆分配连续学习
在神经机器翻译中,前预训练再微调模式取得了令人印象深刻的结果,但灾难性遗忘仍然是一个挑战。为了解决这个问题,我们提出了一种连续学习方法,名为 F-MALLOC (前馈记忆分配),通过将前馈层分解为离散的记忆单元并将这些记忆分配给不同的任务, - 评估涉及英语和印度语的大型语言模型的翻译能力
通过使用机器翻译作为涉及英语和 22 种印度语言的任务,我们探索了大型语言模型的多语言能力,研究了原始模型的翻译能力和上下文学习能力,通过参数高效的微调方法和完全微调,我们确定了最佳性能的大型语言模型。结果表明,大型语言模型在包括目前在 L - 具有语法感知的复数神经机器翻译
本研究提出了一种将语法信息与复数编码器 - 解码器结构相结合的方法,通过注意力机制从源端到目标端联合学习单词级和语法级注意力分数,可以直接集成到任何现有的序列到序列框架中,并在两组数据集上表现出很大的 BLEU 分数提高,特别是在具有显著语 - ICML可移动上下文:解决同声传译中的训练推理上下文不匹配问题
提出了可移位上下文(Shiftable Context)方案,旨在保持训练和推断环境中段和上下文大小的一致性,即使存在由于同时翻译的流媒体特性而导致部分填充的段。在 MUST-C 数据集的三种语言对中,模型的 BLEU 得分显著提高。
- ACLxSIM++: 低资源语言双语挖掘性能的改进代理
本论文介绍了一个新的代理打分方法 - xSIM++,它可以更准确地评估多语言嵌入位文挖掘的相似性。作者通过实验验证,xSIM++ 比 xSIM 更好地预测了位文挖掘对翻译系统性能的影响,并提供了不同类型错误的性能报告。
- SignNet:利用度量嵌入学习生成单通道符号
本文介绍了一种基于度量嵌入学习的方法,利用相似性(和不相似性)来进行文本到手语的翻译,并说明了如何选择手语的正负例进行相似性测试。在 RWTH PHOENIX-Weather-2014T 基准数据集上的测试中,使用 SignNet 模型取得 - 结合语音和双语文本的联合预训练,用于直接语音翻译
本文提出了一种基于不对称数据的语音到语音模型 Speech2S,利用双语文本数据训练模型可以有效地模拟跨语言的语音转换,实验结果显示,Speech2S 的表现比现有的最先进模型更好。
- 文本清晰与全身变形器:微软参加 WMT22 共享任务的手语翻译提交
本文介绍微软对 WMT 2022 年第一次手语翻译共享任务的提交结果,展示了一种基于动作识别的全身信息提取、标准 Transformer 网络应用、目标文本数据清理的手语翻译系统,该系统在测试集和开发集上的 BLEU 得分是参与者中最好的, - ACL基于置信度的双向全局上下文感知训练框架用于神经机器翻译
本研究提出一个训练框架 —— 基于置信度的双向全局上下文感知(CBBGCA),用于在神经机器翻译(NMT)中有效地利用双向全局上下文。通过对 CBBGCA 模型的多任务联合训练和基于置信度的知识蒸馏,本研究得出,该模型在三个大型翻译数据集上 - EMNLP无向序列模型生成顺序的学习和分析
通过强化学习训练预训练的无向翻译模型的生成顺序,从而实现了比从左到右或学习自 Mansimov 等人 (2019) 学习的顺序得到的输出 BLEU 分数更高的翻译结果。
- NVIDIA NeMo WMT21 英德及英俄新闻和生物医学任务神经机器翻译系统
本文介绍了 NVIDIA NeMo 神经机器翻译系统在 WMT21 新闻和生物医学共享翻译任务的受限数据跟踪中的运用,其中新闻任务的提交在 Transform 器基础的序列到序列模型上,采用了多项技术手段并且获得了比去年任务最佳提交更好的表 - EMNLP使用检索示例学习核平滑机器翻译
提出了一种基于核平滑算法的在线神经机器翻译模型自适应方法,称为 KSTER,与现有的在线适应方法相比,即使不重新训练,该方法也能在域适应和多领域机器翻译中实现 1.1 到 1.5 BLEU 分数的提高。
- WMT21 的微信神经机器翻译系统
本研究介绍了 WeChat AI 在 WMT 2021 共享新闻翻译任务中的参与,并使用 Transformer 等多种方法来生成大量的合成数据,从而实现英语到中文、英语到日语、日语到英语和英语到德语的翻译,通过使用高级微调方法和基于 Se - ACL机器翻译研究的科学可信度:769 篇论文的元评估
本文是机器翻译评估的第一篇大规模元评估,发现了在过去十年中自动 MT 评估的做法已经发生了巨大的变化和令人担忧的趋势。我们提出了指南来鼓励更好的自动 MT 评估,并提出了一个简单的元评估评分方法来评估其可靠性。
- EMNLP融合损失的代词目标定向 NMT 微调
本研究引入了一类新的条件生成 - 判别混合 Loss,用于微调经过训练的机器翻译模型,通过有针对性的微调目标和直观地重复利用训练数据,从而在不使用任何其他数据的情况下提高了模型的性能。我们针对代词翻译问题进行微调,并在代词基准测试集上对模型 - 知识蒸馏的端到端语音翻译:FBK@IWSLT2020
本文介绍了 FBK 参加 IWSLT 2020 离线语音翻译任务的方法和成果,使用基于 Transformer 模型的端到端系统,并运用了 ASR 预训练、数据增强、多任务学习等技术,最佳 BLEU 得分达到 29,优于最近相关研究。
- AAAI非自回归神经机器翻译中的 N 元词袋差异最小化
本文提出通过训练 NAT 最小化模型输出和参考句子之间的 N-Gram 差异来促进 NAT 捕捉目标方面的序列依赖性,并与翻译质量相关。在三个翻译任务上验证了我们的方法,结果显示我们的方法在 WMT14 En<->De 和 WMT16 En - 基于字符的 Transformer 神经机器翻译
本文研究了字符级别的翻译和基于 Transformer 架构的输入与输出之间的影响,并通过对 EN-DE 的实验发现字符级别 Transformer 模型比其 BPE 模型更具鲁棒性。为了在干净、领域特定的数据中获得可比的 BLEU 分数并 - 自适应调整 Transformer 网络:提高低资源机器翻译的速度、效率和性能
本文介绍的机器翻译模型基于 Transformer,通过自动调整网络架构和超参数来提高 BLEU 分数,其中引入了自动调整网络大小的正则化方法,能够在删除网络中的神经元的同时减少模型的参数数量。
- 通过受限模仿学习实现灵活策略的同时翻译
本研究介绍了一种使用延迟标记和受限动态 Oracle 进行简化训练的单模型策略进行同时翻译优化, 实验结果表明,相比固定和强化学习策略,该方法能够实现更好的 BLEU 分数和更低的延迟。