LLM 见行：引导数据生成以实现非可微目标

Jul, 2024

LLM 见行：引导数据生成以实现非可微目标

LLM See, LLM Do: Guiding Data Generation to Target Non-Differentiable Objectives

Luísa Shimabucoro, Sebastian Ruder, Julia Kreutzer, Marzieh Fadaee, Sara Hooker

TL;DR使用合成数据生成的模型对其他大型语言模型产生的影响与其它模型通过提炼数据的方式发生关系，研究了合成数据整合的后果，进而详细研究了合成数据来源对模型内部偏见、校准以及生成的文本属性和偏好等方面的影响。研究发现，模型在某些属性上表现出惊人的敏感性，即使合成数据的提示看起来 “中性”。这引发了一个问题，即这种敏感性是否可以被利用于有益的目的。我们的研究结果呼唤讨论：我们是否可以在测试时通过利用数据生成过程明确地引导模型朝着我们想要的属性方向发展？这在过去被认为是不可行的，因为收集具有特定特征或目标的数据成本很高。然而，合成数据质量的提高以及向遵循多样化指令的通用模型的转变，使这个问题具有及时性。我们提出了 “主动继承” 的概念，用于描述根据不可微分目标故意限制合成数据。我们展示了如何通过主动继承来引导模型生成具有良好的非可微分属性，例如高词汇多样性或低毒性。

Abstract

The widespread adoption of synthetic data raises new questions about how models generating the data can influence other large language models (LLMs) via distilled data. To start, our work exhaustively characteriz

synthetic data large language models internal biases data generation process active inheritance

发现论文，激发创造

关于基于 LLMs 驱动的合成数据生成、整理和评估的调查

这篇论文旨在通过提出一种基于合成数据生成的通用工作流程的组织方式，突出现有研究中的差距，并概述未来研究的前景，以引导学术和工业界更深入、更系统地探索基于大型语言模型驱动的合成数据生成的能力和应用。

Jun, 2024

利用大型语言模型进行文本分类的合成数据生成：潜力与局限性

通过研究 LLM 生成的合成数据的表现与分类的主观性之间的关系，我们发现主观性对于模型训练的合成数据的性能具有负面影响，从而限制了利用 LLM 进行合成数据生成的潜力和局限性。

Oct, 2023

语言多样性的好奇衰退：基于合成文本训练语言模型

研究通过以前辈生成的合成数据对大型语言模型进行训练的后果，重点关注这种训练方法对语言多样性的影响，特别是在逐步迭代的过程中。通过开展递归微调实验，应用一系列针对词汇、句法和语义多样性的新型度量标准，我们的研究发现模型输出的多样性在连续迭代中显著降低。这一趋势强调了在训练大型语言模型时使用前辈生成文本的潜在风险，特别是涉及保留语言丰富性方面。我们的研究突出了需要仔细考虑这种训练方法对大型语言模型的语言能力所产生的长期影响。

Nov, 2023

使用大型语言模型生成真实的合成数据：计算社会科学案例研究

该研究论文介绍了采用基于 grounding、过滤和分类系统的生成方法来提高合成数据的准确性，并在讽刺检测任务中对比研究了三种方法以提高准确性，评估证明 Grounding 方法更为有效，该研究提供了合成数据高保真性的一些建议。

May, 2023

揭示 LLM 生成数据的本质

本研究探讨了大型语言模型（LLMs）在生成人工数据中的不断扩大的作用。尽管人工数据能够与人类性能相匹配，但本文揭示了显著的潜在差异，尤其是在复杂任务中，LLMs 常常错过对内在人类生成内容的微妙理解。该研究批判性地考察了多样化的 LLM 生成数据，并强调了在数据创建和使用 LLMs 时遵循道德实践的必要性。它凸显了解决 LLM 生成内容中产生的偏差和人为因素对于未来研究和开发的重要性。所有数据和代码都可在我们的项目页面上获得。

Jan, 2024

探索 LLMs 作为有针对性的合成文本数据源，以最小化高置信度的错误分类

使用大型语言模型进行数据增强，减少高置信度错误分类，并与人类数据进行比较，以降低成本并保持同样的准确性。

Mar, 2024

生成人工智能用于合成数据生成：方法、挑战与未来

该论文探讨利用巨大的大语言模型生成特定任务训练数据的先进技术，介绍了方法论、评估技术和实际应用，并讨论了当前的限制和未来研究的潜在路径。

Mar, 2024

利用不对称性进行合成训练数据生成：SynthIE 与信息抽取案例

本研究展示了大型语言模型的潜力，即使在无法直接解决 LLM 的任务中，也可以合成有用的数据。其中一项方法是通过引导 LLM 生成符合目标结构的文本，此方法已经成功应用于闭合信息提取，并通过 SynthIE 模型在微观和宏观 F1 值上超过了同样规模的基准模型 57 和 79 个百分点。

Mar, 2023

引导语言生成：利用对比专家指导和负面提示进行连贯多样的合成数据生成

通过对比专家指导和利用现有真实和合成示例实施对抗，STEER 通过嵌入重新定位来解决一致性和多样性问题，从而在生成合成数据时取得了更好的平衡。

Aug, 2023

利用大型语言模型生成私有合成文本

本文研究了使用敏感数据集生成新的差分隐私数据集作为替代方法，通过使用预先训练好的生成式语言模型并在敏感数据上进行私有调优，然后利用该模型可以产生差分隐私合成数据集，同时展示了训练目标及少调参数可提高合成数据的质量并与直接使用差分隐私训练下游分类器性能竞争力几乎相同，还可用于调整同一模型等级的分类器。

Jun, 2023