利用机器翻译增强多语言分类
使用更强的机器翻译系统并减少原始文本训练和机器翻译文本推理之间的不匹配,翻译 - 测试可以比之前假定的效果更好,从而对跨语言分类的多语言模型的支配提出了质疑,并促使更多关注基于机器翻译的基准线。
May, 2023
研究人员利用多语言数据和预训练的语言模型,成功开发出一种分类器,能够自动区分不同源语言翻译的人工翻译和机器翻译,发现使用少量数据训练的分类器的推广能力更好。
May, 2023
该研究提出了一种基于经典的 “翻译和测试” 流程的跨语言文本分类方法,该方法将神经机器翻译器与高资源语言中的文本分类器相结合,通过端到端反向传播来进行微调,并在三个跨语言文本分类数据集上展示了显著的改进。
Jun, 2023
本研究表明,在零样本机器翻译中,基于输入提示的大型模型不会出现离题语言错误,实验证明自监督预训练和数据增强对于零样本多语言机器翻译的效果显著。
Oct, 2022
利用机器翻译从英语训练 LLMs 在低资源语言中通常会带来翻译的挑战,然而我们研究了机器翻译和合成数据在训练语言模型中的作用,并通过案例研究展示了改进的效果。
May, 2024
本文提出了一种基于多任务学习方法,利用源端的单语言语言资源来解决神经机器翻译中由于缺少平行文本造成模型质量差的问题,并采用语义分析、句法分析和命名实体识别等辅助任务以将语义和 / 或句法知识注入到翻译模型中,实现了在英法、英波斯和英越三种翻译任务上的有效性验证。
May, 2018
提出了一种神经机器翻译的方法,利用一种新的候选采样策略,基于强化学习技术提高翻译模型的机器导向性,从而产生最适合用作特定下游任务的自然语言处理组件输入的翻译结果,这种方法可以显著提高英文分类器对 Twitter 数据的情感分类的性能。
Oct, 2019
通过使用机器翻译来增强现有的英文对话数据,我们提出了一个绕过数据缺乏问题的方法,用于开发鲁棒的多语言对话评估指标,并通过实验证明,与仅使用源数据微调多语言模型的强基线相比,仅仅使用翻译数据微调预训练的多语言编码器模型的天真方法无法取得更好的性能。相反,最佳方法是通过使用机器翻译质量估计度量仔细策划翻译数据,排除低质量翻译对其性能的影响。
Aug, 2023