启用代码交替机器翻译的检查和策略
本文针对神经机器翻译等文本任务的数据增强方法进行了研究。我们将数据增强策略的设计形式化为一个优化问题,并推导出一种通用的解析解。该方法不仅综合了一些现有的增强方案,而且还引导出一种极为简单的数据增强策略:随机地用其对应的词汇库中的其他单词替换源语句和目标语句中的单词。我们将这个方法命名为 SwitchOut。对三个不同规模的翻译数据集进行实验表明,SwitchOut 可以始终改进约 0.5 BLEU,达到比强大的替代方案如单词丢失(Sennrich et al.,2016a)更好或相当的性能。文中还包括了代码以实现该方法。
Aug, 2018
为了解决训练混合语言模型的困难,本研究提出了一种基于序列-序列模型及copy机制的新型训练方法,通过有限的混合语言数据和单语数据的并行翻译生成需要的混合语言数据,且无需对齐或分析,实现了良好的表现,并显著提高了末端自动语音识别。
Sep, 2019
本文通过大量实证研究探索了多语言大型语言模型在涉及语种切换的情况下情感分析、机器翻译和单词级别语言识别等任务的表现。研究显示,虽然这些模型在使用零 / 少量提示时在某些任务中表现出色,但与较小的微调模型相比,它们的性能仍然有所不适。因此,研究者认为未来需要进一步研究来完全弥合这一差距。
May, 2023
GLOSS是一种用于语言对的代码交换文本综合的模型,它通过自适应器或额外前缀从代码交换数据中学习代码交换模式,该模型构建在预训练的多语言机器翻译模型(PMMTM)之上,它具有自我训练算法进一步提高 GLOSS的可靠性,并且对四种语言对进行的自动评估表明:与强基线相比,GLOSS BLEU值和METEOR得分至少提高了55%,同时对两个语言对的人为评估进一步验证了GLOSS的成功。
May, 2023
我们提出了一种训练单一机器翻译模型的方法,该模型能够将单语句从一种语言翻译成另一种语言,并能够翻译混合语句到任意一种语言,以应对社交媒体和用户生成内容的崛起带来的语种切换翻译需求。该模型可被视为与人类类似的双语模型,并通过生成合成的混合语数据以及对编码器进行对齐损失来更好地使用并行数据。在使用WMT14英法数据集进行训练后,所训练的模型在混合语翻译中大幅优于双向基线模型,并且在非混合语(单语)数据上保持了质量。
Sep, 2023
本文提出了在代码转换的语音中有效地微调大型预训练多语言语音模型的方法,并将代码转换建模为一系列潜在的二进制序列,以引导每个语言适配器在帧级别上的信息流,通过在阿拉伯语、普通话和印地语等多种语言与英语配对的数据集上的评估,显示出代码转换性能的持续改进,至少可以将语音识别错误率(CER)降低10%。
Oct, 2023
通过对比多个LLM模型,在机器翻译任务中,我们发现相对较简单的模型性能优于多语言大型语言模型,表明多语言大型语言模型在上下文代码切换方面的有效性受到训练方法的限制。与之相反,当相对较小的模型在定制的数据集上进行训练和微调时,可能会产生更好的结果。
Dec, 2023