Aug, 2024

自动数据集构建(ADC):样本收集、数据策划及其应用

TL;DR本研究解决了在高质量数据集创建中的挑战,包括注释错误和人力成本高昂的问题。提出的自动数据集构建(ADC)方法通过利用大型语言模型实现样本收集和类别设计,大幅提高了数据生成的效率,减少了人工注释的需求。结果展示了该方法在提升训练数据质量和模型训练稳健性方面的潜力,尤其在标签噪声检测和类不平衡学习的基准数据集上具有重要贡献。