基于 LLM 的文本增强中多样性激励对样本多样性和下游模型性能的影响

Jan, 2024

基于 LLM 的文本增强中多样性激励对样本多样性和下游模型性能的影响

Effects of diversity incentives on sample diversity and downstream model performance in LLM-based text augmentation

Jan Cegin, Branislav Pecher, Jakub Simko, Ivan Srba, Maria Bielikova...

TL;DR最新的生成型大规模语言模型（LLM）被应用于数据增强任务，在这些任务中使用少量文本样本进行 LLM 重述，然后用于模型的微调。本研究调查了三种在众包中广泛使用的文本多样性激励方法：禁忌词、先前异常解决方案的提示和先前异常解决方案的链接，并使用它们作为指导 LLM 对文本数据集进行增强的一部分的指令，测量它们对生成文本的词汇多样性和下游模型性能的影响。我们比较了在 5 种不同 LLM 和 6 个数据集上的影响效果。研究结果表明，禁忌词对多样性的增加最为显著，而使用先前创建的重述作为提示时下游模型性能最佳。

Abstract

The latest generative large language models (LLMs) have found their application in data augmentation tasks, where small numbers of text samples are LLM-paraphrased and then used to fine-tune the model. However, m

generative large language models data augmentation text diversity incentive methods lexical diversity downstream model performance

发现论文，激发创造

人工对齐中的语言模型微调中的数据多样性扩展

通过控制文本样本数量，本研究发现更多回复但更少提示比大量的提示更能触发语言模型与人类一致，此外，提出了提示多样性的新公式，并使用数据增强进行了实验证明其对不同算法的效果。

Mar, 2024

利用大语言模型和人工干预进行文本数据生成以增加多样性并维持准确性

本文研究人工智能与人类合作生成高质量的大语言模型数据，使用两种方法促进文本生成的多样性和准确性，探究人类干预的效果并发现标签替换有助于提高模型的准确性，但移除超出用户领域兴趣或没有适当标签的实例不能提高模型准确性，需要更多人机协作探索。

Jun, 2023

语言多样性的好奇衰退：基于合成文本训练语言模型

研究通过以前辈生成的合成数据对大型语言模型进行训练的后果，重点关注这种训练方法对语言多样性的影响，特别是在逐步迭代的过程中。通过开展递归微调实验，应用一系列针对词汇、句法和语义多样性的新型度量标准，我们的研究发现模型输出的多样性在连续迭代中显著降低。这一趋势强调了在训练大型语言模型时使用前辈生成文本的潜在风险，特别是涉及保留语言丰富性方面。我们的研究突出了需要仔细考虑这种训练方法对大型语言模型的语言能力所产生的长期影响。

Nov, 2023

通过提示大型语言模型生成多样化的励志信息：与人工书写的信息相比较

通过使用众包任务的具体和包含示例的指导性说明书，我们发现，使用众包管道作为大语言模型（LLMs）的提示可以产生比基线提示更多样化的信息。同时，我们还讨论了人类作者和 LLMs 生成的信息的其他影响。

Aug, 2023

从大型语言模型中我们能提取多少种不同的观点？基于评判标准的多样性激励！

调查了大型语言模型（LLMs）在生成多样化观点和理由方面的能力，提出了一种基于标准提示技术来衡量透视多样性的方法，并发现利用句子嵌入和距离度量来衡量语义多样性是不够的。研究结果表明，LLMs 能够根据任务主观性的程度产生多样的观点。

Nov, 2023

大型语言模型的思维多样性提高推理能力

通过改变输入提示的多样性，并借助多种演绎方法，我们提出的 DIV-SE 和 IDIV-SE 方法在不改变解码过程的前提下，通过多种推理调用和单次推理调用中的多样提示，在固定生成预算的情况下，在多个推理基准和最新的计划基准上，优于现有基线，并在最有挑战的 4/5 Blocksworld 任务上超过先前报告的最高准确率至少 29.6 个百分点，从而改进了 LLM 推理的准确性 - 成本权衡的帕累托前沿。

Oct, 2023

大型语言模型探索多样化设计解决方案的能力

通过调整参数和不同的提示工程技术，探索大型语言模型在生成多样化设计方案方面的有效性，并通过比较多个参数和提示工程方法的组合，以及使用相同多样性指标与人工设计方案进行比较，结果表明人类生成的解决方案在所有设计主题上始终有更高的多样性评分。

May, 2024

通过群体评议和自我投票改进大型语言模型中的民族代表多样性

大型生成语言模型的关键挑战是多样性，本文通过提出度量多样性的评估数据集和指标，并应用集体批判和自我投票等方法，有效提高模型对人群和文化的多样性。

Oct, 2023

语言模型书写是否减少内容多样性？

通过对大型语言模型的合作写作进行实验，我们测量了共同撰写对多样性的影响，发现使用 InstructGPT 会显著降低多样性，增加作者之间的文字相似性和降低词汇和内容多样性。这表明通过模型适应人类反馈来提高生成质量可能以减少多样性为代价。

Sep, 2023

ROBBIE: 大规模生成语言模型的稳健偏见评估

评估和改善大型语言模型（LLMs）的公平性，通过使用不同的提示性数据集来测量社会偏见，对比模型之间的偏差和毒性度量，并研究偏差 / 毒性降低技术的效果。我们开源分析代码以鼓励测量未来 LLMs 偏见的广泛研究。

Nov, 2023