合成过采样：理论和使用 LLMs 解决数据不平衡的实践方法

Jun, 2024

合成过采样：理论和使用 LLMs 解决数据不平衡的实践方法

Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance

Ryumei Nakada, Yichen Xu, Lexin Li, Linjun Zhang

TL;DR不平衡数据和虚假关联是机器学习和数据科学中常见的挑战。本文介绍了 OPAL（使用人工生成的 LLM 数据进行过采样），一种系统的过采样方法，利用大型语言模型（LLMs）生成高质量的少数类别合成数据，与深度生成模型进行预测任务的合成数据生成方法有所不同，着重解决不平衡数据和虚假关联问题，并提出了新的理论来严格表征使用合成数据的益处，并展示了变压器在生成标签和协变量的高质量合成数据方面的能力。此外，我们进行了大量的数值实验，以证明我们提出的方法相较于一些代表性的替代方案更加有效。

Abstract

imbalanced data and spurious correlations are common challenges in machine learning and data science. oversampling, which artificially inc

imbalanced data spurious correlations oversampling large language models synthetic data generation

发现论文，激发创造

基于不平衡数据的深度学习中的最大后验比率对合成信息的研究

本研究通过生成合成数据来平衡少数类别数据，以探究类别不平衡数据对深度学习模型的影响。我们提出一种优先选择高信息熵样本的技术，通过最大化生成合成样本在其类别正确区域的概率来增强机器学习算法的准确性和效率。实验结果显示我们技术在增强深度学习模型方面表现出卓越性能。

Jan, 2024

类别不平衡学习中的去除过采样方法：一次批判性综述

本文分析了大量过采样方法，并提出了一种新的基于隐藏部分多数类样本进行比较的过采样评估系统。我们的实验证明，所有研究过的过采样方法生成的少数类样本最有可能是多数类。因此，我们认为当前形式和方法的过采样不可靠，并在真实世界应用中应避免使用。

Feb, 2022

关于基于 LLMs 驱动的合成数据生成、整理和评估的调查

这篇论文旨在通过提出一种基于合成数据生成的通用工作流程的组织方式，突出现有研究中的差距，并概述未来研究的前景，以引导学术和工业界更深入、更系统地探索基于大型语言模型驱动的合成数据生成的能力和应用。

Jun, 2024

利用半监督学习开发合成数据以处理小规模和不平衡数据集

本文研究了通过模式的凸组合生成合成数据以及在半监督学习框架中利用这些数据作为无监督信息的效果，以支持小的高维度数据集和不平衡学习问题，而无需标记合成示例。作者在 53 个二元分类数据集上进行实验，结果表明该方法支持半监督学习中的聚类假设，对于小型高维度数据集和不平衡学习问题表现出色。

Mar, 2019

不平衡数据集学习的广义过采样及相关理论

通过数据增强算法 GOLIATH，在不平衡回归问题中应用了生成器过程和野外自助法重采样技术，实现了显著改进。

Aug, 2023

探索 LLMs 作为有针对性的合成文本数据源，以最小化高置信度的错误分类

使用大型语言模型进行数据增强，减少高置信度错误分类，并与人类数据进行比较，以降低成本并保持同样的准确性。

Mar, 2024

使用大型语言模型生成真实的合成数据：计算社会科学案例研究

该研究论文介绍了采用基于 grounding、过滤和分类系统的生成方法来提高合成数据的准确性，并在讽刺检测任务中对比研究了三种方法以提高准确性，评估证明 Grounding 方法更为有效，该研究提供了合成数据高保真性的一些建议。

May, 2023

利用大型语言模型进行文本分类的合成数据生成：潜力与局限性

通过研究 LLM 生成的合成数据的表现与分类的主观性之间的关系，我们发现主观性对于模型训练的合成数据的性能具有负面影响，从而限制了利用 LLM 进行合成数据生成的潜力和局限性。

Oct, 2023

时间序列数据增强的不平衡学习问题

这篇研究提出了一种生成单变量时间序列合成样本的新方法，通过使用过采样技术创建合成时间序列观测来改善预测模型的准确性，并在实验中证明了该方法优于全局模型和本地模型，提供了更好的权衡。

Apr, 2024

大型语言模型生成合成表格数据的群组提示

通过使用大型语言模型（Large Language Models，LLMs）生成合成数据解决分类不平衡问题，在 CSV 格式中采用新颖的分组提示方法，利用 LLMs 的上下文学习能力生成满足目标数据集要求和特征的数据，并通过随机词替换策略提高处理单调分类值的准确性和代表性。在八个真实公共数据集上广泛验证我们的方法，取得了优于现有方法的下游分类和回归任务性能，同时保持特征间的相关性并提高标识的效率。该研究对于解决机器学习应用中关于表格数据生成和处理类别不平衡的关键挑战具有重要意义。

Apr, 2024