利用 ULMFit 和回译进行低资源文本分类

Mar, 2019

利用 ULMFit 和回译进行低资源文本分类

Low Resource Text Classification with ULMFit and Backtranslation

Sam Shleifer

TL;DR通过深度学习模型数据增强技术，本文提高了 IMDB 电影评论数据集的文本分类准确性，其中采用了 Wei 和 Zou（2019）介绍的随机 token 扰动和将其翻译回到英语的回译技术，而回译技术的效果优于其他技术。最终，通过使用回译技术进行测试时间增强并将 ULMFit 模型与其他模型组合，实现了小幅度的性能提升。

Abstract

In computer vision, virtually every state-of-the-art deep learning system is trained with data augmentation. In text classification, howev

deep learning data augmentation text classification backtranslation ulmfit model

发现论文，激发创造

使用回译的数据增强方法应用于低资源的命名实体识别

本文提出了基于回译技术的数据增强策略，用于命名实体识别任务的低资源域，实验结果表明该方法在材料科学和生物医学领域中均表现出了高效的性能。

Aug, 2021

低资源神经机器翻译的数据增强

本研究提出了一种以数据增强为基础的方法，针对低频词汇在合成的新语境中生成新的句子对，以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示，相对于基准和回译方法，我们的方法能够提高翻译质量，最高可提高 2.9 BLEU 分数。

May, 2017

规模理解后向翻译

使用单语数据生成目标语反向翻译的有效方法能够提高神经机器翻译质量。本研究比较了几种方法生成合成源句子的效果，发现使用采样或噪声束搜索的反向翻译方法效果最好，并证实这种合成数据的训练信号强于束搜索或贪婪搜索的数据，同时也比较了它们与真实的平行语料库的效果，并研究了不同领域对它们的影响。最终，将这种方法扩展到数亿条单语数据，获得了 35 BLEU 的 WMT'14 英德测试集上的最新记录。

Aug, 2018

在资源匮乏环境中通过大型语言模型的微调进行文本数据增强

通过细调教师大型语言模型产生和注释的数据，可以改善较小模型的下游性能，有时只需要原始训练数据的一小部分。

Oct, 2023

评估低资源语言的语言模型微调技术

我们介绍了一个新的 Filipino 语言建模数据集，并展示了在低资源环境下，采用 BERT 和 ULMFiT 等语言模型微调技术，能够稳定地训练出健壮的分类器。

Jun, 2019

文本增强技术在低资源机器翻译中的应用：斯瓦希里语案例研究

本研究旨在探讨将文本数据增强技术应用于低资源机器翻译的影响，研究表明在针对英斯瓦西里（En-Sw）数据集进行神经机器翻译时，文本分类任务中常用的三种数据增强技术（同义词替换、随机插入和上下文数据增强）均可提高系统性能，尤其是上下文数据增强技术。

Jun, 2023

评估数据增强在低资源环境下情感分类的有效性

本研究评估了不同数据增强技术对低资源数据集上多标签情绪分类任务的效果，并发现后向翻译技术超过基于自编码器的方法，每个训练实例生成多个示例进一步提高了性能，此外后向翻译生成了最多样化的单字和三字组合，这些发现证明了后向翻译在资源有限情况下提升情绪分类模型性能的实用性。

Jun, 2024

利用自我训练增强低资源神经机器翻译的反向翻译

利用自训练策略改进 Neural Machine Translation（NMT）模型，通过反向翻译技术来生成高质量的合成数据以训练标准翻译模型，可提高低资源下的翻译品质，提高翻译模型的 BLEU 值。

Jun, 2020

神经机器翻译中的反向翻译泛化

本研究提出在跨熵优化的范畴中改进后向翻译，其涵盖包括从目标到源 NMT 模型中进行采样的更广泛的合成数据生成方案，并在 WMT 2018 德语 - 英语新闻翻译任务上验证了我们的陈述。

Jun, 2019

通过数据增强提高神经机器翻译的鲁棒性：超越回译

本文探讨了神经机器翻译以及如何提高其对于噪声输入的鲁棒性，提出了新的数据扩充方法以及通过利用外部数据中的噪声来加强模型鲁棒性。

Oct, 2019