通过检索和转换现有数据集获取更好的合成数据

Apr, 2024

通过检索和转换现有数据集获取更好的合成数据

Better Synthetic Data by Retrieving and Transforming Existing Datasets

Saumya Gandhi, Ritu Gala, Vijay Viswanathan, Tongshuang Wu, Graham Neubig

TL;DR使用 DataTune 方法，通过数据集转换与细调语言模型，能够改进自动数据集生成，并在各种语言任务中取得了显著的改进。

Abstract

Despite recent advances in large language models, building dependable and deployable nlp models typically requires abundant, high-quality training data. However, task-specific data is not available for many use c

large language models nlp models data generation dataset transformation big-bench benchmark

发现论文，激发创造

合成数据是否使得大型语言模型更高效？

本文探讨了在自然语言处理中合成数据生成的细微差别，重点放在基于模板的问题生成上，并比较了其优点和局限性，最后通过实证评估展示了基于模板的合成数据对现代转换器模型性能的影响。研究结果旨在指导自然语言处理从业者在利用合成数据的潜力上，确保在多种应用中获得最佳模型性能。

Oct, 2023

语言模型生成的合成数据的最佳实践和经验教训

人工智能模型的成功依赖于大规模、多样化、高质量的数据集的可用性，而由于数据稀缺、隐私问题和高成本，获取这些数据集可能具有挑战性。合成数据作为一种有前景的解决方案出现，通过生成模仿真实世界模式的人工数据。本文提供了合成数据研究的概述，并讨论了其应用、挑战和未来方向。我们通过先前研究中的实证证据来展示其有效性，并强调确保其真实性、保真性和无偏性的重要性。我们强调了在使用合成数据构建更强大、包容性和可信赖的语言模型时的责任使用的需求。

Apr, 2024

利用生成式语言模型进行神经机器翻译的数据增强

通过利用大规模语言模型如 ChatGPT，我们探索了基于提示的数据增强方法，用于产生合成的平行语料库，比较了三种不同提示的方法，并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本，与后向翻译等其他增强方法相比，提高了未增强基线的 0.68 BLEU 分数。

Jul, 2023

超级提示：利用模型无关的语境数据减少视觉常识任务中的数据注释需求

本文研究如何使用 Prompt-based Fine-tuning 技术提高语言模型和多模式因果变换器模型的效果，结果表明使用只有 35%-40% 的训练数据集便能取得可比较的效果，从而达到显著的时间和费用节约。

Apr, 2022

TarGEN：大型语言模型的有针对性数据生成

通过使用 TarGEN 多步提示策略来生成高质量的合成数据集，结合自校正方法增强语言模型生成过程中的准确性，从而创建复杂和多样的基准测试数据集。

Oct, 2023

利用合成目标进行机器翻译

使用大型预训练模型生成合成目标数据可以提高限定资源环境下机器翻译模型的性能，这种方法可以优于在实际数据上训练模型，效果更好的原因可以归因于模型参数的数量限制和优化效果的提高。

May, 2023

非自然语言处理：弥合合成语言与自然语言数据之间的差距

通过 “模拟到真实” 的技术，本文提出通过合成数据生成程序与训练能够准确解释这些合成数据的模型，再利用学习到的句子嵌入来定义距离度量，从而实现将自然语言映射到合成数据集的支撑上，训练出只使用合成训练数据的自然语言处理模型，其在多个领域的表现已经与使用自然语言数据训练的最先进的模型相匹配或超越。

Apr, 2020

利用大型语言模型生成私有合成文本

本文研究了使用敏感数据集生成新的差分隐私数据集作为替代方法，通过使用预先训练好的生成式语言模型并在敏感数据上进行私有调优，然后利用该模型可以产生差分隐私合成数据集，同时展示了训练目标及少调参数可提高合成数据的质量并与直接使用差分隐私训练下游分类器性能竞争力几乎相同，还可用于调整同一模型等级的分类器。

Jun, 2023

合成训练图像的未实现承诺：使用检索的真实图像性能更好

通过对比采用生成模型生成的人工数据和来自真实数据的有针对性图像进行微调，在任务上针对性生成的合成数据被真实数据普遍匹配或超越，这表明合成图像中存在生成器伪像和不准确的任务相关视觉细节。总体而言，我们认为在使用合成数据进行训练时，检索是一个必须考虑的关键基线。

Jun, 2024

迭代式数据集合成：从小型模型推测错误实现大型语言模型的数据集合成

通过使用大型语言模型来进行数据合成，我们提出了一种名为 “Synthesis Step by Step (S3)” 的数据合成框架，该框架通过迭代地使用大型语言模型对小型真实验证数据集上的小型模型合成数据集中的错误进行外推，从而缩小合成数据集与真实数据之间的分布差异。在多个自然语言处理任务的广泛实验中表明，我们的方法能够通过减小合成数据集与真实数据之间的差距来提高小型模型的性能，相较于 ZeroGen 和 GoldGen，我们的方法改进了 9.48% 和 2.73%，并且相较于人工标注数据训练的小型模型最多提高了 15.17%。

Oct, 2023