启用代码交替机器翻译的检查和策略

Oct, 2022

启用代码交替机器翻译的检查和策略

Checks and Strategies for Enabling Code-Switched Machine Translation

Thamme Gowda, Mozhdeh Gheini, Jonathan May

TL;DR本研究探讨了多语言神经机器翻译模型处理语种混杂文本的能力，提出了一种检测方法和简单有效的数据增强方法，同时通过对注意力模块的分析证明了这些方法的有效性。

Abstract

code-switching is a common phenomenon among multilingual speakers, where alternation between two or more languages occurs within the context of a single conversation. While →

发现论文，激发创造

SwitchOut：神经机器翻译的高效数据增强算法

本文针对神经机器翻译等文本任务的数据增强方法进行了研究。我们将数据增强策略的设计形式化为一个优化问题，并推导出一种通用的解析解。该方法不仅综合了一些现有的增强方案，而且还引导出一种极为简单的数据增强策略：随机地用其对应的词汇库中的其他单词替换源语句和目标语句中的单词。我们将这个方法命名为 SwitchOut。对三个不同规模的翻译数据集进行实验表明，SwitchOut 可以始终改进约 0.5 BLEU，达到比强大的替代方案如单词丢失（Sennrich et al.，2016a）更好或相当的性能。文中还包括了代码以实现该方法。

Aug, 2018

使用代码转换增强预设翻译的神经机器翻译

研究一种使用代码转换从而生成的训练数据的数据增强方法来限制大众翻译机器在本地词汇翻译方面的失误问题。

Apr, 2019

使用神经合成数据的混合语言模型来处理句子间的平行语言切换

为了解决训练混合语言模型的困难，本研究提出了一种基于序列-序列模型及copy机制的新型训练方法，通过有限的混合语言数据和单语数据的并行翻译生成需要的混合语言数据，且无需对齐或分析，实现了良好的表现，并显著提高了末端自动语音识别。

Sep, 2019

多语言模型在代码交错中有效吗？

本文研究了多语言语言模型在代码切换任务中的应用效果，通过研究实验得出使用元嵌入方法能够在参数数量减少的情况下取得类似的结果。

Mar, 2021

多语言大型语言模型还不能切换语言

本文通过大量实证研究探索了多语言大型语言模型在涉及语种切换的情况下情感分析、机器翻译和单词级别语言识别等任务的表现。研究显示，虽然这些模型在使用零 / 少量提示时在某些任务中表现出色，但与较小的微调模型相比，它们的性能仍然有所不适。因此，研究者认为未来需要进一步研究来完全弥合这一差距。

May, 2023

未见过语言对的混合语言文本合成

GLOSS是一种用于语言对的代码交换文本综合的模型，它通过自适应器或额外前缀从代码交换数据中学习代码交换模式，该模型构建在预训练的多语言机器翻译模型（PMMTM）之上，它具有自我训练算法进一步提高 GLOSS的可靠性，并且对四种语言对进行的自动评估表明：与强基线相比，GLOSS BLEU值和METEOR得分至少提高了55％，同时对两个语言对的人为评估进一步验证了GLOSS的成功。

May, 2023

对齐目标对语码转换翻译的影响

我们提出了一种训练单一机器翻译模型的方法，该模型能够将单语句从一种语言翻译成另一种语言，并能够翻译混合语句到任意一种语言，以应对社交媒体和用户生成内容的崛起带来的语种切换翻译需求。该模型可被视为与人类类似的双语模型，并通过生成合成的混合语数据以及对编码器进行对齐损失来更好地使用并行数据。在使用WMT14英法数据集进行训练后，所训练的模型在混合语翻译中大幅优于双向基线模型，并且在非混合语（单语）数据上保持了质量。

Sep, 2023

多语音识别中的代码切换适配器适应

本文提出了在代码转换的语音中有效地微调大型预训练多语言语音模型的方法，并将代码转换建模为一系列潜在的二进制序列，以引导每个语言适配器在帧级别上的信息流，通过在阿拉伯语、普通话和印地语等多种语言与英语配对的数据集上的评估，显示出代码转换性能的持续改进，至少可以将语音识别错误率(CER)降低10％。

Oct, 2023

利用语言模型进行机器翻译的上下文代码切换

通过对比多个LLM模型，在机器翻译任务中，我们发现相对较简单的模型性能优于多语言大型语言模型，表明多语言大型语言模型在上下文代码切换方面的有效性受到训练方法的限制。与之相反，当相对较小的模型在定制的数据集上进行训练和微调时，可能会产生更好的结果。

Dec, 2023

通过渐进式代码切换改善零样本跨语言迁移

逐渐生成适度困难的混合码交换示例，以引导模型对更困难的混合码交换数据进行优化，并根据单词相关性评分设计了难度测量器、代码切换器和训练调度器。

Jun, 2024