缓解大型语言模型的数据稀缺问题

Feb, 2023

缓解大型语言模型的数据稀缺问题

Mitigating Data Scarcity for Large Language Models

Hoang Van

TL;DR本文研究了使用数据增强和神经集成学习技术来减轻预训练神经语言模型在医学或低资源语言等特定领域中的数据稀缺问题。实验结果表明，这些简单有效的解决方案可以显著提高这些领域下神经语言模型的性能。

Abstract

In recent years, pretrained neural language models (PNLMs) have taken the field of natural language processing by storm, achieving new benchmarks and state-of-the-art performances. These models often rely heavily on annotated data, which may not always be available. →

pretrained neural language models data scarcity data augmentation neural ensemble learning low-resource nlp domains

发现论文，激发创造

神经 NLP 数据增强

本文概述了当前用于自然语言处理模型的数据增强方法的现状和近期发展，着重介绍了基于神经网络和变换器的方法，讨论了数据增强的实际问题、可能的缓解措施以及未来研究的方向。

Feb, 2023

低资源场景下自然语言处理的最近方法综述

本文调查了低资源自然语言处理的相关方法，其中包括数据增强、遥感监视和迁移学习等技术以帮助在需要训练数据较少的情况下提高神经模型的性能，并通过说明这些方法的差异帮助选择适合特定低资源设置的技术。

Oct, 2020

自然语言处理中有限数据学习的数据增强实证调查

本文旨在系统评估了在有限标注数据情境下的 Natural Language Processing（NLP）中数据增强方法的进展和方法景观，总结了包括标记级别增强、句子级别增强、对抗性增强和隐藏空间增强等多种方法并在 11 个数据集上实验，分析了各种方法的适用情境，对 NLP 有限数据学习的挑战和未来方向进行了讨论。

Jun, 2021

利用生成式语言模型进行神经机器翻译的数据增强

通过利用大规模语言模型如 ChatGPT，我们探索了基于提示的数据增强方法，用于产生合成的平行语料库，比较了三种不同提示的方法，并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本，与后向翻译等其他增强方法相比，提高了未增强基线的 0.68 BLEU 分数。

Jul, 2023

低资源神经机器翻译的数据增强

本研究提出了一种以数据增强为基础的方法，针对低频词汇在合成的新语境中生成新的句子对，以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示，相对于基准和回译方法，我们的方法能够提高翻译质量，最高可提高 2.9 BLEU 分数。

May, 2017

使用预训练语言模型进行口语理解的数据增强

本研究提出了一种数据增量方法，利用预训练语言模型提高生成话语的变异性和准确性，同时探讨和提出了两种在 SLU 中被忽视的半监督学习情况的解决方案。实证结果表明，我们的方法可以生成合成训练数据，在各种情况下提高了语言理解模型的性能。

Apr, 2020

利用 NLP 云 API 简化文本数据增强

本工程研究了文本数据增强预处理技术，使用了常见的技术，如噪声注入，词法替换和生成的近义词，如后向转换或通过句法树的转换。使用这些技术，通过增加只有五个数据放大因子，已经使得在文本极性预测标准化任务上神经网络的准确度在 4.3% 到 21.6％的范围内获得了不错的提升，而且部分标准深度神经网络架构也都进行了测试。

Dec, 2018

为文本数据增强赋能大型语言模型

提出了一种自动生成大量数据增强指令并选择最适合任务的指令的新解决方案，从而赋予 LLM 创建高质量增强数据用于不同的下游任务的能力。在 26 个少样本学习任务中，该方法一致生成比非 LLM 和基于 LLM 的数据增强方法质量更好的增强数据，表现最佳。

Apr, 2024

优质数据到文本生成用于严重资源不足的语言的开箱即用大型语言模型

大型语言模型可以在研究欠资源语言中通过数据到文本生成来弥补性能差距，但人工评估表明 BLEU 分数相比于英语有所下降，对于评估非任务特定系统其适用性存疑。

Feb, 2024

探索 LLMs 作为有针对性的合成文本数据源，以最小化高置信度的错误分类

使用大型语言模型进行数据增强，减少高置信度错误分类，并与人类数据进行比较，以降低成本并保持同样的准确性。

Mar, 2024