Jun, 2024

揭示缺陷:探索合成数据的不完美和大型语言模型的缓解策略

TL;DR合成数据被提出作为解决大型语言模型(LLMs)训练中高质量数据稀缺问题的方法。虽然有研究表明合成数据可以有效提高 LLMs 在下游基准测试中的性能,但分析显示合成数据存在固有缺陷。我们的工作针对广泛存在的问答对(Q-A pairs)合成数据中的这些缺陷,提出了一种基于取消学习技术的方法来减轻这些缺陷。实证结果表明我们的方法在较低成本下能够逆转由于模式过拟合导致的指令遵循问题,且不损害基准测试性能。我们的工作为合成数据的有效使用提供了关键见解,旨在促进更健壮和高效的 LLM 训练。