Sep, 2024

合成数据作为基准的有效性

TL;DR本研究解决了合成数据在自然语言处理任务中作为基准的代表性问题。通过评估合成数据的生成效果,提出了“偏差因子”这一新指标,揭示小型大型语言模型对自生成数据的偏见。研究结果表明,不同任务对合成数据的有效性要求不同,因此建议实践者在可能的情况下使用来自多个大型模型生成的数据。