合成数据作为基准的有效性

Sep, 2024

Efficacy of Synthetic Data as a Benchmark

Gaurav Maheshwari, Dmitry Ivanov, Kevin El Haddad

TL;DR本研究解决了合成数据在自然语言处理任务中作为基准的代表性问题。通过评估合成数据的生成效果，提出了“偏差因子”这一新指标，揭示小型大型语言模型对自生成数据的偏见。研究结果表明，不同任务对合成数据的有效性要求不同，因此建议实践者在可能的情况下使用来自多个大型模型生成的数据。

Abstract

large language models (LLMs) have enabled a range of applications in zero-shot and few-shot learning settings, including the generation of synthetic datasets for training and testing. However, to reliably use these synthetic datasets, it is essential to understand how representative th

发现论文，激发创造

利用不对称性进行合成训练数据生成：SynthIE与信息抽取案例

本研究展示了大型语言模型的潜力，即使在无法直接解决LLM的任务中，也可以合成有用的数据。其中一项方法是通过引导LLM生成符合目标结构的文本，此方法已经成功应用于闭合信息提取，并通过SynthIE模型在微观和宏观F1值上超过了同样规模的基准模型57和79个百分点。

Mar, 2023

使用大型语言模型生成真实的合成数据：计算社会科学案例研究

该研究论文介绍了采用基于 grounding、过滤和分类系统的生成方法来提高合成数据的准确性，并在讽刺检测任务中对比研究了三种方法以提高准确性，评估证明 Grounding 方法更为有效，该研究提供了合成数据高保真性的一些建议。

May, 2023

利用大型语言模型进行文本分类的合成数据生成：潜力与局限性

通过研究LLM生成的合成数据的表现与分类的主观性之间的关系，我们发现主观性对于模型训练的合成数据的性能具有负面影响，从而限制了利用LLM进行合成数据生成的潜力和局限性。

Oct, 2023

合成数据是否使得大型语言模型更高效？

本文探讨了在自然语言处理中合成数据生成的细微差别，重点放在基于模板的问题生成上，并比较了其优点和局限性，最后通过实证评估展示了基于模板的合成数据对现代转换器模型性能的影响。研究结果旨在指导自然语言处理从业者在利用合成数据的潜力上，确保在多种应用中获得最佳模型性能。

Oct, 2023

一种用于NLI模型领域泛化的合成数据方法

自然语言推理是语言模型的重要基准任务，在领域泛化上的问题中，我们通过生成多样化的合成NLI数据，使得模型在全新的下游测试环境中具有最佳的泛化性能。

Feb, 2024

探索LLMs作为有针对性的合成文本数据源，以最小化高置信度的错误分类

使用大型语言模型进行数据增强，减少高置信度错误分类，并与人类数据进行比较，以降低成本并保持同样的准确性。

Mar, 2024

语言模型生成的合成数据的最佳实践和经验教训

人工智能模型的成功依赖于大规模、多样化、高质量的数据集的可用性，而由于数据稀缺、隐私问题和高成本，获取这些数据集可能具有挑战性。合成数据作为一种有前景的解决方案出现，通过生成模仿真实世界模式的人工数据。本文提供了合成数据研究的概述，并讨论了其应用、挑战和未来方向。我们通过先前研究中的实证证据来展示其有效性，并强调确保其真实性、保真性和无偏性的重要性。我们强调了在使用合成数据构建更强大、包容性和可信赖的语言模型时的责任使用的需求。

Apr, 2024

揭示缺陷：探索合成数据的不完美和大型语言模型的缓解策略

合成数据被提出作为解决大型语言模型（LLMs）训练中高质量数据稀缺问题的方法。虽然有研究表明合成数据可以有效提高LLMs在下游基准测试中的性能，但分析显示合成数据存在固有缺陷。我们的工作针对广泛存在的问答对（Q-A pairs）合成数据中的这些缺陷，提出了一种基于取消学习技术的方法来减轻这些缺陷。实证结果表明我们的方法在较低成本下能够逆转由于模式过拟合导致的指令遵循问题，且不损害基准测试性能。我们的工作为合成数据的有效使用提供了关键见解，旨在促进更健壮和高效的LLM训练。

Jun, 2024

关于基于LLMs驱动的合成数据生成、整理和评估的调查

这篇论文旨在通过提出一种基于合成数据生成的通用工作流程的组织方式，突出现有研究中的差距，并概述未来研究的前景，以引导学术和工业界更深入、更系统地探索基于大型语言模型驱动的合成数据生成的能力和应用。

Jun, 2024

使用大型语言模型进行文本分类的数据生成：一项实证案例研究

使用大型语言模型产生合成数据以进行模型训练在近年来越来越流行。本研究专注于使用合成数据进行文本分类任务，通过在不同的生成方法上使用基于合成数据的自然语言理解模型来评估合成数据的质量，从而提供了对这些因素影响的经验分析，并提供了更好的数据生成实践建议。

Jun, 2024