迭代式数据集合成：从小型模型推测错误实现大型语言模型的数据集合成

EMNLPOct, 2023

迭代式数据集合成：从小型模型推测错误实现大型语言模型的数据集合成

Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models

PDF

Ruida Wang, Wangchunshu Zhou, Mrinmaya Sachan

TL;DR通过使用大型语言模型来进行数据合成，我们提出了一种名为 “Synthesis Step by Step (S3)” 的数据合成框架，该框架通过迭代地使用大型语言模型对小型真实验证数据集上的小型模型合成数据集中的错误进行外推，从而缩小合成数据集与真实数据之间的分布差异。在多个自然语言处理任务的广泛实验中表明，我们的方法能够通过减小合成数据集与真实数据之间的差距来提高小型模型的性能，相较于 ZeroGen 和 GoldGen，我们的方法改进了 9.48% 和 2.73%，并且相较于人工标注数据训练的小型模型最多提高了 15.17%。

Abstract

*data synthesis* is a promising way to train a small model with very little labeled data. One approach for data synthesis is to leverage t

data synthesis synthesis step by step (s3)small model large language models nlp tasks

发现论文，激发创造

超越模型崩溃：通过合成数据实现规模扩展需要加强

使用反馈增强合成数据可以防止模型崩溃，验证了常见的方法，如 RLHF。

Jun, 2024

扩展合成：从有限样本生成大规模数据集

通过 Expansive Synthesis 模型，从有限样本中生成大规模、高保真度的数据集，提供解决数据稀缺问题的鲁棒方案，为机器学习应用中的数据提供了更强可用性的途径。

Jun, 2024

通过检索和转换现有数据集获取更好的合成数据

使用 DataTune 方法，通过数据集转换与细调语言模型，能够改进自动数据集生成，并在各种语言任务中取得了显著的改进。

Apr, 2024

用于语法错误校正的可控数据合成方法

提出两种数据合成方法来解决语法错误纠正任务中缺乏平行数据的问题，并对不同数据进行实验，结果表明错误率为 40％，错误类型的比例相同可以更好地提高模型性能。最终，合成约 1 亿数据，实现了与使用两倍数据的最新技术相当的性能。

Sep, 2019

利用合成目标进行机器翻译

使用大型预训练模型生成合成目标数据可以提高限定资源环境下机器翻译模型的性能，这种方法可以优于在实际数据上训练模型，效果更好的原因可以归因于模型参数的数量限制和优化效果的提高。

May, 2023

德文文本简化：使用半合成数据对大型语言模型进行微调

本研究首次使用合成数据来训练德语文档级文本简化的生成模型，通过真实世界在线文本论证了我们方法的有效性。解决语言简化中数据稀缺的挑战，我们爬取了经过专业简化的德语文本并使用 GPT-4 合成了一个语料库。我们在这些数据上微调了多达 130 亿参数的大型语言模型，并使用多种方法对其性能进行评估。该论文运用了各种评估方法，并展示了当前使用的基于规则的度量指标的局限性。自动和手动评估均表明，我们的模型可以显著简化真实世界的在线文本，显示了合成数据在改进文本简化方面的潜力。

Feb, 2024

非自然语言处理：弥合合成语言与自然语言数据之间的差距

通过 “模拟到真实” 的技术，本文提出通过合成数据生成程序与训练能够准确解释这些合成数据的模型，再利用学习到的句子嵌入来定义距离度量，从而实现将自然语言映射到合成数据集的支撑上，训练出只使用合成训练数据的自然语言处理模型，其在多个领域的表现已经与使用自然语言数据训练的最先进的模型相匹配或超越。

Apr, 2020

自导噪声无数据生成的高效零样学习

本文提出了一种名为 SunGen 的噪声鲁棒根据权重重新加权框架来自动构建零 - shot 分类问题中的高质量数据，有效提高了模型的性能和效率。

May, 2022

使用大型语言模型生成真实的合成数据：计算社会科学案例研究

该研究论文介绍了采用基于 grounding、过滤和分类系统的生成方法来提高合成数据的准确性，并在讽刺检测任务中对比研究了三种方法以提高准确性，评估证明 Grounding 方法更为有效，该研究提供了合成数据高保真性的一些建议。

May, 2023

语言模型生成的合成数据的最佳实践和经验教训

人工智能模型的成功依赖于大规模、多样化、高质量的数据集的可用性，而由于数据稀缺、隐私问题和高成本，获取这些数据集可能具有挑战性。合成数据作为一种有前景的解决方案出现，通过生成模仿真实世界模式的人工数据。本文提供了合成数据研究的概述，并讨论了其应用、挑战和未来方向。我们通过先前研究中的实证证据来展示其有效性，并强调确保其真实性、保真性和无偏性的重要性。我们强调了在使用合成数据构建更强大、包容性和可信赖的语言模型时的责任使用的需求。

Apr, 2024