揭示缺陷：探索合成数据的不完美和大型语言模型的缓解策略

Jun, 2024

揭示缺陷：探索合成数据的不完美和大型语言模型的缓解策略

Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models

Jie Chen, Yupeng Zhang, Bingning Wang, Wayne Xin Zhao, Ji-Rong Wen...

TL;DR合成数据被提出作为解决大型语言模型（LLMs）训练中高质量数据稀缺问题的方法。虽然有研究表明合成数据可以有效提高 LLMs 在下游基准测试中的性能，但分析显示合成数据存在固有缺陷。我们的工作针对广泛存在的问答对（Q-A pairs）合成数据中的这些缺陷，提出了一种基于取消学习技术的方法来减轻这些缺陷。实证结果表明我们的方法在较低成本下能够逆转由于模式过拟合导致的指令遵循问题，且不损害基准测试性能。我们的工作为合成数据的有效使用提供了关键见解，旨在促进更健壮和高效的 LLM 训练。

Abstract

synthetic data has been proposed as a solution to address the issue of high-quality data scarcity in the training of large language models (LLMs). Studies have shown that →

synthetic data large language models pattern overfitting instruction-following capabilities question-answer pairs

发现论文，激发创造

语言模型生成的合成数据的最佳实践和经验教训

人工智能模型的成功依赖于大规模、多样化、高质量的数据集的可用性，而由于数据稀缺、隐私问题和高成本，获取这些数据集可能具有挑战性。合成数据作为一种有前景的解决方案出现，通过生成模仿真实世界模式的人工数据。本文提供了合成数据研究的概述，并讨论了其应用、挑战和未来方向。我们通过先前研究中的实证证据来展示其有效性，并强调确保其真实性、保真性和无偏性的重要性。我们强调了在使用合成数据构建更强大、包容性和可信赖的语言模型时的责任使用的需求。

Apr, 2024

利用大型语言模型进行文本分类的合成数据生成：潜力与局限性

通过研究 LLM 生成的合成数据的表现与分类的主观性之间的关系，我们发现主观性对于模型训练的合成数据的性能具有负面影响，从而限制了利用 LLM 进行合成数据生成的潜力和局限性。

Oct, 2023

合成数据是否使得大型语言模型更高效？

本文探讨了在自然语言处理中合成数据生成的细微差别，重点放在基于模板的问题生成上，并比较了其优点和局限性，最后通过实证评估展示了基于模板的合成数据对现代转换器模型性能的影响。研究结果旨在指导自然语言处理从业者在利用合成数据的潜力上，确保在多种应用中获得最佳模型性能。

Oct, 2023

关于基于 LLMs 驱动的合成数据生成、整理和评估的调查

这篇论文旨在通过提出一种基于合成数据生成的通用工作流程的组织方式，突出现有研究中的差距，并概述未来研究的前景，以引导学术和工业界更深入、更系统地探索基于大型语言模型驱动的合成数据生成的能力和应用。

Jun, 2024

使用合成数据训练问答模型

通过利用大型语言模型，研究了模型大小、预训练模型的质量、合成数据的规模和算法选择等多个因素，缩小了人工和合成问题 - 答案对之间的差距。该研究通过模型生成的数据，在 SQuAD 数据集上实现了良好的准确率，并在 SQuAD2.0 上显示出优于以前的工作的结果。

Feb, 2020

使用大型语言模型生成真实的合成数据：计算社会科学案例研究

该研究论文介绍了采用基于 grounding、过滤和分类系统的生成方法来提高合成数据的准确性，并在讽刺检测任务中对比研究了三种方法以提高准确性，评估证明 Grounding 方法更为有效，该研究提供了合成数据高保真性的一些建议。

May, 2023

用合成对抗数据生成提高问答模型的鲁棒性

本文提出一种使用合成对抗数据生成的方法来提高问题回答模型对人工对手的鲁棒性。通过将合成数据引入训练，成功地将对人工对手的鲁棒性提高了大约一倍。

Apr, 2021

揭开模仿学习的面纱：探索数据虚假对大型语言模型的影响

通过使用合成指令数据重新训练 ChatGPT 和 GPT-4 等领先专有模型，许多最近的研究试图改进开源语言模型的模仿学习。然而，合成数据的固有特性本质上包含有噪声的数据，导致大量低质量数据存在错误响应和有缺陷的推理。本文探讨了噪声程度与其对语言模型的影响之间的相关性，并通过指令调整来实现。我们首先引入了 “可控虚假性”（FACO）数据集，该数据集包含了真实答案及相应推理的对应对，以及用于手动控制数据集虚假比率的虚假对。通过我们的大量实验证明了指令的虚假性与各种基准得分的相关性的多个有趣发现。此外，当 LLM（语言模型）使用虚假指令训练时，它们会学会撒谎和生成虚假不忠实的答案，即使它们知道正确答案的用户请求。此外，我们注意到，一旦语言模型使用受噪声污染的数据集进行训练，恢复其原始性能是可能的，但无法达到完全性能。

Apr, 2024

利用合成目标进行机器翻译

使用大型预训练模型生成合成目标数据可以提高限定资源环境下机器翻译模型的性能，这种方法可以优于在实际数据上训练模型，效果更好的原因可以归因于模型参数的数量限制和优化效果的提高。

May, 2023

问题生成的合成上下文生成

通过使用大规模语言模型生成的合成上下文进行训练，研究表明，虚拟上下文在问句生成中具有类似实际上下文的效果，为未来该领域的进一步发展铺平了道路。

Jun, 2024