通过匹配风格缩小零样本与少样本机器翻译之间的差距

Nov, 2023

通过匹配风格缩小零样本与少样本机器翻译之间的差距

Narrowing the Gap between Zero- and Few-shot Machine Translation by Matching Styles

Weiting Tan, Haoran Xu, Lingfeng Shen, Shuyue Stella Li, Kenton Murray...

TL;DR使用大型语言模型在单语环境下主要训练的研究发现，通过零样本和少样本的情境学习可以很好地实现机器翻译的泛化能力。然而，尽管零样本翻译的表现相对良好，但与少样本设置相比仍存在可辨别的差距。本文的研究探讨了导致这种差距的因素，并发现通过与目标语料库的写作风格匹配可以在很大程度上缩小这种差距（约为 70%）。此外，我们还探索了提高零样本基线的潜在方法，而无需并行演示样本，从而为提高翻译度量标准提供了有价值的见解。

Abstract

large language models trained primarily in a monolingual setting have demonstrated their ability to generalize to machine translation using zero- and few-shot examples with in-context learning. However, even thou

large language models generalization machine translation zero-shot translations writing styles

发现论文，激发创造

通过零 - shot 自然语言单语翻译实现语法错误矫正和风格转换

本研究提出了一种方法，该方法使用常规语言平行数据，在同一模型中完成语法错误纠正和文本样式转换两个任务，并在三种语言上应用我们的模型并进行了全面评估，表明该模型可靠地适用于多种错误类型和样式转换方面。

Mar, 2019

零样本神经机器翻译中一致性的达成

通过将多语言翻译问题重新构造为概率推理，定义了零 - shot 一致性的概念；引入了一种基于一致性约束的训练方法，鼓励模型在辅助语言中生成等效的平行句子翻译，最终我们测试了多种公共的零 - shot 翻译基准数据集，并证明基于一致性约束训练的 NMT 模型通常会在无监督翻译任务上取得 2-3 BLEU 的提高，而在监督翻译任务上的性能不会降低。

Apr, 2019

通过零 - shot 多语言回译防止作者个人信息泄露

本文提出了一种简单且无需训练数据的方法，通过多语言反向翻译来有效降低作者个人信息暴露的风险，以达到提高隐私性的目的，而无需牺牲数据的后续实用价值。在自动和人类评估中，与五种最具代表性的文本风格转换模型相比，我们的模型在不同领域的三个数据集上取得了最佳的整体表现，能够将性别和种族的对抗预测降低高达 22％，同时保留 95％的原始实用性。

Sep, 2021

改进大规模多语言神经机器翻译和零样例翻译

本文探讨了如何改善大规模多语言神经机器翻译模型的性能，并提出了加强模型能力、引入语言特定组件和加深神经机器翻译结构以支持具有不同类型学特征的语言对，同时通过随机在线回译来解决离线训练中未出现的语言对翻译问题。实验结果表明，本方法在一对多和多对多设置中缩小了双语模型的性能差距，并将零 - shot 表现提高约 10 BLEU，接近传统的基于中间语言的方法。

Apr, 2020

零样本神经机器翻译的有效策略

本文提出了两种策略，可应用于多语言神经机器翻译系统中，以更好地处理零资源情况，尤其是在减轻语言偏差问题方面在真实零资源条件下不平衡数据的多语言翻译方面，实验证明这两种策略在性能和计算资源方面都是有效的。

Nov, 2017

Few-Shot 学习在机器翻译中的不合理有效性

通过少量有质量的翻译数据训练的自监督学习解码器模型，在没有多语言联合训练或反向翻译的情况下，在较高和较低资源语言对中均显示出潜力。同时，该方法还提供了一种控制翻译属性的方法，为可控机器翻译系统铺平了道路。

Feb, 2023

提高低资源语言的零 - shot 翻译

本文提出一种简单的迭代训练过程，利用系统直接生成的翻译对零 - shot 方向进行翻译，以及原始并行数据，来重新训练多语言网络，有效提高了多语言模型的 BLEU 分数，并且在非零 - shot 语言方向上的性能也略有提升。

Nov, 2018

子词分词和单桥语言对零样本神经机器翻译的影响

研究了多语言零 - shot 机器翻译中的稳定性问题，发现语言特定的次词分割会提高翻译性能，单独的中间语言反而降低零 - shot 翻译表现，但是在非英语语言配对中使用少量的平行数据可以有效减少对英语的偏见。

Nov, 2020

零样本神经机器翻译中的缺失元素

本文研究了多语言神经机器翻译模型的零样本翻译问题，提出了基于辅助损失的方法，并在 WMT14 英语 - 法语 / 德语上实现了与基于中介语的模型相媲美的零样本翻译效果，同时在 IWSLT 2017 共享任务中验证了该方法的易于扩展性。

Mar, 2019

零样本学习的跨语言上下文主题模型

本文介绍了一种零射击跨语言主题模型，利用迁移学习来处理多个语言的数据集，以解决传统基于词袋的主题模型所面临的单语言或巨大而稀疏的词汇表等问题，并评估了在不同语言中同一篇文章的主题预测的准确性和连贯性，结果表明所转移的主题是连贯且稳定的，具有潜在的未来研究方向。

Apr, 2020