零样本情境机器翻译的反语言模型解码

Nov, 2023

零样本情境机器翻译的反语言模型解码

Anti-LM Decoding for Zero-shot In-context Machine Translation

Suzanna Sia, Alexandra DeLucia, Kevin Duh

TL;DR零射一上下文学习是一种模型能够根据指令进行任务处理的现象。该研究提出了一种具有衰减因子的反语言模型目标，旨在解决上下文机器翻译的弱点，并在实验中表现出优于其他最先进解码目标的性能。

Abstract

zero-shot in-context learning is the phenomenon where models can perform the task simply given the instructions. However, pre-trained large language models are known to be poorly calibrated for this task. One of

zero-shot in-context learning pre-trained large language models contrastive decoding objective anti-language model objective decoding objectives

发现论文，激发创造

Mask-Predict: 条件掩码语言模型的并行解码

本文介绍了一种利用掩码语言建模来训练非自回归机器翻译模型的方法，并通过对多个数据集的实验验证，证明该方法在翻译质量和速度方面都优于现有的非自回归翻译模型，并且接近于左到右的变换器模型。

Apr, 2019

通过对比解码增强大型语言模型中的上下文理解能力

大型语言模型在生成文本时常常不能充分整合输入上下文，过度依赖模型参数中的编码先验知识，导致生成的文本存在事实不一致或上下文不忠实的内容。本研究提出了一种新颖的方法，利用对抗性无关信息作为负样本，通过对比解码来增强生成过程中的强大上下文基础。值得注意的是，我们的方法在推理时不需要额外的训练，并通过全面实验证明了其可行性和有效性，提供了实证证据表明其优于现有方法。

May, 2024

重拾零样本神经机器翻译：从潜在变量角度出发

该研究利用深度学习方法，将自然语言翻译应用于零式翻译，提出使用去噪自编码器和支点语言改进零式翻译的传统训练目标，以提高翻译准确性，并在两个基准机器翻译数据集上取得了优异的表现。

Sep, 2021

通过忽略假相关关系的方式改进零样本神经机器翻译

本研究提出了两种简单但有效的方法，解决零样本神经机器翻译的退化问题，即解决了源语言和解码语言之间的虚假相关性问题。实验结果表明，在三个具有挑战性的多语言数据集上，在零样本翻译上取得了显著的提高，并且在某些情况下可以实现优于传统基于 pivot 翻译的效果。

Jun, 2019

使用大型语言模型的自适应机器翻译

本文旨在探究如何利用上下文学习的方法来提高实时自适应机器翻译的质量，并研究将强编码器 - 解码器模型和模糊匹配相结合以进一步提高翻译质量的方法。已在五个大不同的语言对上展开了实验。

Jan, 2023

基于语言特定编码器解码器的零样本神经机器翻译改进

本文介绍了一种利用语言特定的编码器 - 解码器完成零样本翻译的方法。通过区分语言特定的 Transformer 层和公共层，应用交叉注意力和参数共享等技术，最大化句子的普适性，以实现最佳的语义对齐，此外结合了自编码目标来实现多任务的联合训练。在两个公共的多语言平行数据集上进行实验，它们的结果具有竞争力，而且相当于从头开始联合训练模型时的结果，还表现出增量学习的能力。

Feb, 2021

从解码目标的角度理解和解决翻译结果不足的问题

神经机器翻译 (NMT) 在过去几年取得了显著进展，但仍存在两个具有挑战性的问题，即欠翻译和过翻译。本文从解码目标的角度深入分析了 NMT 中欠翻译的根本原因，并提出了使用预测句子结束标记的置信度作为欠翻译检测器的方法，通过增强基于置信度的惩罚来纠正欠翻译的候选翻译，实验证明该方法可以准确地检测和纠正欠翻译的输出，对其他正确翻译的影响较小。

May, 2024

利用语言无关约束改进零 - shot 翻译

通过设计归一化方法来改进 Transformer 模型以实现对未在训练过程中出现的语言对进行零 - shot 机器翻译，此方法可使系统在 IWSLT 2017 多语言数据集中平均提高 2.23 BLEU 分数。

Jun, 2019

零 - shot 泛化哪种语言模型架构和预训练目标最佳？

通过大规模模型比较和实验验证，本文发现预训练的 Transformer 模型在自然语言处理任务的零样本泛化能力中，部分结构和预训练目标优于其他模型，这为模型架构和目标选择提供了指导。同时，本文研究了预训练模型跨结构和目标的迁移，并提供源代码和检查点。

Apr, 2022

零样本神经机器翻译中的缺失元素

本文研究了多语言神经机器翻译模型的零样本翻译问题，提出了基于辅助损失的方法，并在 WMT14 英语 - 法语 / 德语上实现了与基于中介语的模型相媲美的零样本翻译效果，同时在 IWSLT 2017 共享任务中验证了该方法的易于扩展性。

Mar, 2019