基于 LLM 的数据增强解决层级学科主题推断中的不平衡问题

Oct, 2023

基于 LLM 的数据增强解决层级学科主题推断中的不平衡问题

Resolving the Imbalance Issue in Hierarchical Disciplinary Topic Inference via LLM-based Data Augmentation

Xunxin Cai, Meng Xiao, Zhiyuan Ning, Yuanchun Zhou

TL;DR使用大型语言模型（Llama V1）作为数据生成器，通过在复杂的学科层次结构中对研究提案进行采样，并设计基于关键词的研究提案生成方法，旨在解决数据不平衡问题，提高专家分配的公平性。实验结果表明，使用这种方法生成的研究提案能够有效解决前述问题，并生成高质量的科学文本数据，有助于模型克服数据不平衡问题。

Abstract

In addressing the imbalanced issue of data within the realm of Natural Language Processing, text data augmentation methods have emerged as pivotal solutions. This data imbalance is prevalent in the →

data imbalance text data augmentation research proposals discipline hierarchies expert assignments

发现论文，激发创造

不平衡研究提案主题推理中的跨学科公平性：一种基于层次变压器的选择插值方法

基于 Transformer 编码器 - 解码器架构实现的主题标签推断系统，利用插值技术在训练时从非跨学科提案中创建一系列伪跨学科提案，旨在减少模型训练中的偏见，进行了大量实验证明了该方法在主题推断任务中显著减轻了产生的不公平。

Sep, 2023

研究计划分类的分层跨学科主题检测模型

研究如何使用 Hierarchical Interdisciplinary Research Proposal Classification Network (HIRPCN) 开发一个自动的跨学科课题路径检测系统，该系统使用分层变压器来提取文本语义信息，并使用 GNN 学习每个领域的特征表示，以提取跨学科知识和实现级别预测。在三个实际数据集上的实验和专家评估中，表明我们提出的模型的有效性。

Sep, 2022

层次化 MixUp 多标签分类在不平衡的跨学科研究提议中的应用

本文提出了一种名为 H-MixUp 的层次混合多标签分类框架，利用基于转换器的语义信息提取器和基于 GCN 的跨学科知识提取器来解决交叉学科提案的模型分类问题。

Sep, 2022

为文本数据增强赋能大型语言模型

提出了一种自动生成大量数据增强指令并选择最适合任务的指令的新解决方案，从而赋予 LLM 创建高质量增强数据用于不同的下游任务的能力。在 26 个少样本学习任务中，该方法一致生成比非 LLM 和基于 LLM 的数据增强方法质量更好的增强数据，表现最佳。

Apr, 2024

探索 LLMs 作为有针对性的合成文本数据源，以最小化高置信度的错误分类

使用大型语言模型进行数据增强，减少高置信度错误分类，并与人类数据进行比较，以降低成本并保持同样的准确性。

Mar, 2024

NLP-LTU 在 SemEval-2023 任务 10 中：数据增强和半监督学习技术对不平衡数据集上文本分类性能的影响

本文提出了一种在社交媒体帖子中检测和分类在线性别歧视的方法，使用了 BERTweet、RoBERTa 和 DeBERTa 等 fine-tuned transformer-based 模型，并采用数据增强和半监督学习来改善模型的泛化能力和应对类别不平衡问题，在 SubtaskA 获得了 0.8613 的 F1 得分，排名第十。

Apr, 2023

基于 LLM 的文本增强中多样性激励对样本多样性和下游模型性能的影响

最新的生成型大规模语言模型（LLM）被应用于数据增强任务，在这些任务中使用少量文本样本进行 LLM 重述，然后用于模型的微调。本研究调查了三种在众包中广泛使用的文本多样性激励方法：禁忌词、先前异常解决方案的提示和先前异常解决方案的链接，并使用它们作为指导 LLM 对文本数据集进行增强的一部分的指令，测量它们对生成文本的词汇多样性和下游模型性能的影响。我们比较了在 5 种不同 LLM 和 6 个数据集上的影响效果。研究结果表明，禁忌词对多样性的增加最为显著，而使用先前创建的重述作为提示时下游模型性能最佳。

Jan, 2024

使用 LLMs 的数据增强：数据视角、学习范式和挑战

机器学习中的数据增强技术通过多样化训练示例来提高模型性能，本文调查了大型语言模型在自然语言处理和其他领域中对数据增强的转变影响，探讨了利用大型语言模型进行数据增强的各种策略以及所面临的挑战。

Mar, 2024

缓解大型语言模型的数据稀缺问题

本文研究了使用数据增强和神经集成学习技术来减轻预训练神经语言模型在医学或低资源语言等特定领域中的数据稀缺问题。实验结果表明，这些简单有效的解决方案可以显著提高这些领域下神经语言模型的性能。

Feb, 2023

通过决策边界感知的数据增强在低资源环境中提高效果和鲁棒性

该研究提出了一种基于决策边界的数据增强策略，利用预训练语言模型来提高鲁棒性；该技术首先将潜在特征接近决策边界，然后通过重构生成一个带有软标签的模糊版本，并建议使用中点 K 采样来增强生成句子的多样性。通过大量实验证明了该增强策略与其他方法相比的性能，同时深入研究了软标签和中点 K 采样的效果以及该方法在课程数据增强中的可扩展性。

Mar, 2024