Apr, 2024

大型语言模型生成合成表格数据的群组提示

TL;DR通过使用大型语言模型(Large Language Models,LLMs)生成合成数据解决分类不平衡问题,在 CSV 格式中采用新颖的分组提示方法,利用 LLMs 的上下文学习能力生成满足目标数据集要求和特征的数据,并通过随机词替换策略提高处理单调分类值的准确性和代表性。在八个真实公共数据集上广泛验证我们的方法,取得了优于现有方法的下游分类和回归任务性能,同时保持特征间的相关性并提高标识的效率。该研究对于解决机器学习应用中关于表格数据生成和处理类别不平衡的关键挑战具有重要意义。