使用大型语言模型生成真实的合成数据：计算社会科学案例研究

May, 2023

使用大型语言模型生成真实的合成数据：计算社会科学案例研究

Generating Faithful Synthetic Data with Large Language Models: A Case Study in Computational Social Science

Veniamin Veselovsky, Manoel Horta Ribeiro, Akhil Arora, Martin Josifoski, Ashton Anderson...

TL;DR该研究论文介绍了采用基于 grounding、过滤和分类系统的生成方法来提高合成数据的准确性，并在讽刺检测任务中对比研究了三种方法以提高准确性，评估证明 Grounding 方法更为有效，该研究提供了合成数据高保真性的一些建议。

Abstract

large language models (LLMs) have democratized synthetic data generation, which in turn has the potential to simplify and broaden a wide gamut of NLP tasks. Here, we tackle a pervasive problem in →

large language models synthetic data generation faithfulness sarcasm detection grounding

发现论文，激发创造

利用大型语言模型进行文本分类的合成数据生成：潜力与局限性

通过研究 LLM 生成的合成数据的表现与分类的主观性之间的关系，我们发现主观性对于模型训练的合成数据的性能具有负面影响，从而限制了利用 LLM 进行合成数据生成的潜力和局限性。

Oct, 2023

语言模型生成的合成数据的最佳实践和经验教训

人工智能模型的成功依赖于大规模、多样化、高质量的数据集的可用性，而由于数据稀缺、隐私问题和高成本，获取这些数据集可能具有挑战性。合成数据作为一种有前景的解决方案出现，通过生成模仿真实世界模式的人工数据。本文提供了合成数据研究的概述，并讨论了其应用、挑战和未来方向。我们通过先前研究中的实证证据来展示其有效性，并强调确保其真实性、保真性和无偏性的重要性。我们强调了在使用合成数据构建更强大、包容性和可信赖的语言模型时的责任使用的需求。

Apr, 2024

关于基于 LLMs 驱动的合成数据生成、整理和评估的调查

这篇论文旨在通过提出一种基于合成数据生成的通用工作流程的组织方式，突出现有研究中的差距，并概述未来研究的前景，以引导学术和工业界更深入、更系统地探索基于大型语言模型驱动的合成数据生成的能力和应用。

Jun, 2024

生成人工智能用于合成数据生成：方法、挑战与未来

该论文探讨利用巨大的大语言模型生成特定任务训练数据的先进技术，介绍了方法论、评估技术和实际应用，并讨论了当前的限制和未来研究的潜在路径。

Mar, 2024

探索 LLMs 作为有针对性的合成文本数据源，以最小化高置信度的错误分类

使用大型语言模型进行数据增强，减少高置信度错误分类，并与人类数据进行比较，以降低成本并保持同样的准确性。

Mar, 2024

为促进公正而收集具有全球视角的扎实合成数据

通过综合收集来自 125 个国家的 12 种语言的新闻文章，结合强制的专题多样化、翻译和摘要生成，我们提出了一种新颖的方法来创建合成数据集，这些数据集能够准确地反映真实世界的复杂性，并解决传统数据集中的代表不足问题，初步结果表明，在传统命名实体识别基准测试中，我们的合成数据使性能提升多达 7.3％，突显了我们的合成数据在模拟全球数据源中丰富多样的细微差异方面的有效性。

Jun, 2024

自然语言生成中的忠实度：分析、评估和优化方法的系统调查

本文系统综述了自然语言生成（NLG）的忠实度问题和相关评估方法和优化方法，并将不同任务的评估和优化方法组织在一个统一的分类中，以促进不同任务之间的比较和学习。

Mar, 2022

生成 AI 用于生成测试数据生成器

通过生成 AI，我们评估了不同领域测试数据生成任务的三种水平上大型语言模型（LLMs）的能力，结果表明 LLMs 可以成功地在各种领域和三个集成性水平上生成逼真的测试数据生成器。

Jan, 2024

合成数据是否使得大型语言模型更高效？

本文探讨了在自然语言处理中合成数据生成的细微差别，重点放在基于模板的问题生成上，并比较了其优点和局限性，最后通过实证评估展示了基于模板的合成数据对现代转换器模型性能的影响。研究结果旨在指导自然语言处理从业者在利用合成数据的潜力上，确保在多种应用中获得最佳模型性能。

Oct, 2023

一种用于 NLI 模型领域泛化的合成数据方法

自然语言推理是语言模型的重要基准任务，在领域泛化上的问题中，我们通过生成多样化的合成 NLI 数据，使得模型在全新的下游测试环境中具有最佳的泛化性能。

Feb, 2024