大型语言模型自吃训练循环的问题分析
通过研究喂给自己生成的内容以及原始训练数据集的生成模型的学习动态,本文旨在提供对 “生成闭环学习” 这一过程的洞察,揭示了没有足够外部数据时,任何非平凡的温度都会导致模型渐近退化,即生成分布要么坍缩为一小组输出,要么在一大组输出上变得均匀。
Apr, 2024
最近的研究表明,自我反馈可以改善大型语言模型在某些任务上的表现,但对其他任务而言则会恶化。我们发现这种矛盾是由于语言模型对自己的输出存在偏见所致。本文通过两个统计量正式定义了语言模型的自我偏见 —— 偏爱其自身生成的内容。我们分析了六个语言模型在翻译、受限文本生成和数学推理任务上的表现。我们发现自我偏见在所有研究的语言模型中普遍存在,并且跨多种语言和任务。我们的分析揭示了自我优化流程虽然可以提高模型输出的流畅度和可理解性,但会进一步放大自我偏见。为了减轻这种偏见,我们发现更大的模型规模和准确评估的外部反馈可以显著减少自我优化流程中的偏见,从而在下游任务中实现实际性能的提升。
Feb, 2024
本文提出了一种自对比训练方法,以惩罚同一模型的早期检查点在错误预测重复时的输出,并在保持流畅性的同时有效地减轻了重复的问题,同时研究发现语言模型在预测重复令牌时使用更长的范围依赖性,可能导致句子级重复循环。
Jul, 2023
当面临领域特定问题时,大语言模型(LLMs)可能会遇到问题,如知识遗忘、知识重复、知识幻觉以及知识毒性,这些问题突显了 LLMs 的训练数据和算法设计的困扰。为了解决这些问题,建议对训练数据进行多样化,微调模型,提高透明度和可解释性,并引入伦理和公平性培训。未来的技术趋势可能会倾向于迭代方法学、多模态学习、模型个性化定制以及实时学习和反馈机制。最重要的是,未来的 LLMs 应确保在为人类服务时优先考虑公平、透明和伦理,确保它们持有高的道义和道德标准。
Oct, 2023
通过引入理想化的校正函数,本文旨在稳定自消耗生成模型的训练,理论结果证明了根据真实数据分布将数据点映射为更可能的方法可以使自消耗循环的稳定性呈指数级增加,我们还提出了自我校正函数,它依赖于专家知识并旨在在规模上自动近似理想化的校正器,在具有挑战性的人体运动合成任务上对自我校正自消耗循环的有效性进行了实证验证,观察到即使合成数据与真实数据的比例高达 100%,也能成功避免模型崩溃。
Feb, 2024
研究通过以前辈生成的合成数据对大型语言模型进行训练的后果,重点关注这种训练方法对语言多样性的影响,特别是在逐步迭代的过程中。通过开展递归微调实验,应用一系列针对词汇、句法和语义多样性的新型度量标准,我们的研究发现模型输出的多样性在连续迭代中显著降低。这一趋势强调了在训练大型语言模型时使用前辈生成文本的潜在风险,特别是涉及保留语言丰富性方面。我们的研究突出了需要仔细考虑这种训练方法对大型语言模型的语言能力所产生的长期影响。
Nov, 2023
为了解决大型语言模型在引文、正确性和流畅度方面存在的问题,本研究通过构建数据集、引入自动化反馈机制和反馈学习循环,成功提高了 ChatGPT 的引文和流畅度指标,并保持高水平的正确性。
Sep, 2023
该论文研究自训练范式,其中大型语言模型 (Large language models, LLMs) 通过自主策划标签并选择性地在未知数据样本上训练,以显著改善多个主题中生成中的虚构问题。此外,选择性训练框架在处理超出分布基准的灾难性遗忘时具有重要意义,解决了训练 LLMs 过程中的关键限制。我们的研究结果表明,这种方法可以大幅减少对大规模标记数据的依赖,为更可伸缩和经济有效的语言模型训练铺平了道路。
Jun, 2024
本文提出了一种统一的数据创建流程,只需一个格式示例,适用于包括传统上问题较多的任务在内的广泛范围,通过实验证明使用指令跟随型大型语言模型创建的数据比使用人工标注的数据在分布外评估上表现更好(高达 17.5%),同时在分布内任务上保持可比较的性能,这些结果对于在现实世界中部署的自然语言处理系统的稳健性具有重要意义。
Oct, 2023