利用机器翻译增强多语言分类

May, 2024

Using Machine Translation to Augment Multilingual Classification

Adam King

TL;DR利用机器翻译来调整多语言模型以进行分类任务在多种语言之间产生一定的效果，并且通过一种新颖的技术可以改善模型对翻译数据的负面影响。

Abstract

An all-too-present bottleneck for text classification model development is the need to annotate training data and this need is multiplied for multilingual classifiers. Fortunately, contemporary →

text classification training data multilingual classifiers machine translation fine-tuning

发现论文，激发创造

跨语种分类中机器翻译的再次研究

使用更强的机器翻译系统并减少原始文本训练和机器翻译文本推理之间的不匹配，翻译 - 测试可以比之前假定的效果更好，从而对跨语言分类的多语言模型的支配提出了质疑，并促使更多关注基于机器翻译的基准线。

May, 2023

跨语言情况下自然语言翻译和神经网络翻译的自动区分

研究人员利用多语言数据和预训练的语言模型，成功开发出一种分类器，能够自动区分不同源语言翻译的人工翻译和机器翻译，发现使用少量数据训练的分类器的推广能力更好。

May, 2023

T3L：跨语言文本分类的翻译测试迁移学习

该研究提出了一种基于经典的 “翻译和测试” 流程的跨语言文本分类方法，该方法将神经机器翻译器与高资源语言中的文本分类器相结合，通过端到端反向传播来进行微调，并在三个跨语言文本分类数据集上展示了显著的改进。

Jun, 2023

跨语言转移的潜在翻译模型

提出一种新颖的潜变量翻译分类模型，在多语言 NLU 任务中表现优异，实现了迁移学习。

Jul, 2021

机器翻译文本的多语言多模态学习

研究使用机器翻译英文多模态数据作为缺少多语言数据的高质量数据是否有效，并提出了 TD-MML 框架并在 IGLUE 基准测试中展示了它的有效性。

Oct, 2022

MALM：混合增强语言建模实现零 - shot 机器翻译

本研究表明，在零样本机器翻译中，基于输入提示的大型模型不会出现离题语言错误，实验证明自监督预训练和数据增强对于零样本多语言机器翻译的效果显著。

Oct, 2022

通过持续预训练和字典学习分析改进使用翻译数据训练的语言模型

利用机器翻译从英语训练 LLMs 在低资源语言中通常会带来翻译的挑战，然而我们研究了机器翻译和合成数据在训练语言模型中的作用，并通过案例研究展示了改进的效果。

May, 2024

基于深度多任务学习的双语稀缺情境神经机器翻译

本文提出了一种基于多任务学习方法，利用源端的单语言语言资源来解决神经机器翻译中由于缺少平行文本造成模型质量差的问题，并采用语义分析、句法分析和命名实体识别等辅助任务以将语义和 / 或句法知识注入到翻译模型中，实现了在英法、英波斯和英越三种翻译任务上的有效性验证。

May, 2018

机器之间的机器翻译：情感分类应用案例

提出了一种神经机器翻译的方法，利用一种新的候选采样策略，基于强化学习技术提高翻译模型的机器导向性，从而产生最适合用作特定下游任务的自然语言处理组件输入的翻译结果，这种方法可以显著提高英文分类器对 Twitter 数据的情感分类的性能。

Oct, 2019

多语言自动对话评估

通过使用机器翻译来增强现有的英文对话数据，我们提出了一个绕过数据缺乏问题的方法，用于开发鲁棒的多语言对话评估指标，并通过实验证明，与仅使用源数据微调多语言模型的强基线相比，仅仅使用翻译数据微调预训练的多语言编码器模型的天真方法无法取得更好的性能。相反，最佳方法是通过使用机器翻译质量估计度量仔细策划翻译数据，排除低质量翻译对其性能的影响。

Aug, 2023