自我训练语言模型的崩溃

ICLRApr, 2024

Collapse of Self-trained Language Models

David Herel, Tomas Mikolov

TL;DR基于语言模型的自我训练方法在实践中存在实际限制，导致 GPT-2 模型的性能下降、输出重复并崩溃。

Abstract

In various fields of knowledge creation, including science, new ideas often build on pre-existing information. In this work, we explore this concept within the context of language models. Specifically, we explore

knowledge creation language models self-training models practical limitations gpt-2 model

发现论文，激发创造

大型语言模型自吃训练循环的问题分析

大型语言模型的自消耗训练循环通过使用自身生成的内容训练新一代语言模型，初始会提高生成内容的质量和多样性，但经过几代之后，多样性不可避免地会逐渐下降。

Nov, 2023

语言模型是少样本学习器

在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现，同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现，并探讨了 GPT-3 模型优势和局限性。

May, 2020

通过叙述方式检测语言模型中的模式坍塌

研究发现，较早的大型语言模型在与虚拟作者的对齐中存在模式崩溃现象，导致无法多角度模拟，而通过指导调整和人类反馈强化学习所得的对齐模型保留了模拟任意虚拟作者的能力，对于社会学模拟研究具有重要意义。

Feb, 2024

通过从头开始训练领域知识来匹配领域专家

通过领域特定的自回归训练方法，在小型的 GPT-2 模型上训练神经科学文献，可以实现即使在小规模的语言模型上也能达到专家水平的性能表现。

May, 2024

通过自对比训练缓解开放性生成中对重复的学习偏差

本文提出了一种自对比训练方法，以惩罚同一模型的早期检查点在错误预测重复时的输出，并在保持流畅性的同时有效地减轻了重复的问题，同时研究发现语言模型在预测重复令牌时使用更长的范围依赖性，可能导致句子级重复循环。

Jul, 2023

语言多样性的好奇衰退：基于合成文本训练语言模型

研究通过以前辈生成的合成数据对大型语言模型进行训练的后果，重点关注这种训练方法对语言多样性的影响，特别是在逐步迭代的过程中。通过开展递归微调实验，应用一系列针对词汇、句法和语义多样性的新型度量标准，我们的研究发现模型输出的多样性在连续迭代中显著降低。这一趋势强调了在训练大型语言模型时使用前辈生成文本的潜在风险，特别是涉及保留语言丰富性方面。我们的研究突出了需要仔细考虑这种训练方法对大型语言模型的语言能力所产生的长期影响。

Nov, 2023

人类与语言模型在预测重复文本时的差异

通过研究语言模型在下一个单词预测任务中的表现与人类行为模式的比较，发现人类与 GPT-2 语言模型在文本展现初期表现强相关，随着记忆（或背景学习）的作用逐渐发挥，二者的表现迅速分歧，研究发现这种分歧的原因是特定的中间层注意力头部，为此通过在这些注意力头部中添加幂律最近偏倚，构建了一个更接近人类行为的模型，希望此案例能够推动将语言模型更加贴近人类行为的未来研究。

Oct, 2023

预训练语言模型的可比性

该文章介绍了近期在自然语言处理中提高模型性能所用的三种方法：更加复杂的语言模型、更大的语料库和并行计算，总结了一些最近两年新增的大型预训练语言模型，并探讨了新架构与资源所带来的影响，以此为起点提供了一些方便可复制的研究结果。

Jan, 2020

mGPT: 少样本学习器转向多语言

本文介绍了两种自回归 GPT 类模型，使用维基百科和 Colossal Clean Crawled Corpus 训练了 60 种语言、25 种语言系的搜索，展示了多种任务上的表现，包括分类、生成、序列标记和知识探测，在多语种任务上有着与 Facebook 最近发布的 XGLM 模型相媲美的表现。

Apr, 2022

大型语言模型的紧急自主科研能力

本论文展示了一个结合多个大型语言模型的智能代理系统，可自主设计、规划和执行科学实验，并通过三个不同的实例展示代理的科学研究能力，最为复杂的是成功执行加催化交叉偶联反应。最后，讨论了这种系统的安全影响，并提出了防止滥用的措施。

Apr, 2023