闭环学习中生成模型的热力学死亡
大型语言模型的自消耗训练循环通过使用自身生成的内容训练新一代语言模型,初始会提高生成内容的质量和多样性,但经过几代之后,多样性不可避免地会逐渐下降。
Nov, 2023
本文开发了一个框架,以严格研究在混合数据集(包括真实和合成数据)上训练生成模型对它们的稳定性的影响。通过在 CIFAR10 和 FFHQ 上迭代训练常规流和最先进的扩散模型,我们在合成和自然图像上经验验证了我们的理论。
Sep, 2023
广泛部署面向社会规模的机器学习系统需要深入了解这些系统对环境产生的长期影响,包括失去可信度、偏见放大和违反 AI 安全要求。我们引入了一种重复学习过程,共同描述了一些与意外隐藏反馈循环相关的现象,如错误放大、引发的概念漂移、回声室等。该过程包括在单个数学模型中获取数据、训练预测模型和向最终用户传递预测的整个周期。这种重复学习设置的一个显著特点是,随着时间的推移,环境的状态变得因果关联于学习者本身,从而违背了有关数据分布的通常假设。我们提出了重复学习过程的一种新颖动力系统模型,并证明了系统运行的正反馈和负反馈环模式的概率分布极限集。我们使用两个合成数据集上的示例监督学习问题进行了一系列计算实验。实验结果与从动力模型推导出的理论预测相一致。我们的结果证明了在机器学习系统中研究重复学习过程所提出方法的可行性,并为进一步研究提供了一系列机会。
May, 2024
通过引入理想化的校正函数,本文旨在稳定自消耗生成模型的训练,理论结果证明了根据真实数据分布将数据点映射为更可能的方法可以使自消耗循环的稳定性呈指数级增加,我们还提出了自我校正函数,它依赖于专家知识并旨在在规模上自动近似理想化的校正器,在具有挑战性的人体运动合成任务上对自我校正自消耗循环的有效性进行了实证验证,观察到即使合成数据与真实数据的比例高达 100%,也能成功避免模型崩溃。
Feb, 2024
我们通过建立与热力学变量的联系,将生成式机器学习问题形式化为参数概率模型(PPM)的时间演化,研究了模型参数(θ)和生成样本(X)之间的热力学交换。我们发现模型通过样本生成过程中的热量耗散来学习,导致模型参数熵增加,进而作为热库保存学到的信息。此方法提供了一个计算神经网络内信息论量的明确框架,并引入了两个信息论度量指标:记忆化信息(M-info)和学习化信息(L-info),用于追踪 PPM 学习过程中的信息动态流动。
Oct, 2023
该论文使用最先进的生成图像模型对三种不同类型的自噬循环进行了彻底的分析和实证研究,发现如果每个世代没有足够的新真实数据,未来的生成模型的质量或多样性将逐渐降低,这种情况被称为 ' 模型自噬障碍 '(MAD)。
Jul, 2023
现代生成式机器学习模型展示出令人惊讶的能力,能够创造出超越其训练数据的逼真产出,如逼真的艺术作品、精确的蛋白结构或对话文本。这些成功表明生成模型学会了有效地参数化和采样任意复杂的分布。本文旨在将经典作品与大规模生成统计学习中的新兴主题联系起来,包括经典吸引子重构、隐空间模型中的潜在表示学习等。还介绍了早期利用符号近似进行比较的努力,与现代努力进行黑盒统计模型的精简和解释相关。新兴的跨学科研究桥接了非线性动力学和学习理论,如用于复杂流体流动的算子理论方法,或者检测生物数据集中打破了详细平衡的情况。我们预计未来的机器学习技术可能会重新审视非线性动力学中的其他经典概念,如信息传输衰减和复杂性 - 熵权衡问题。
Nov, 2023
本文研究了在自我消耗循环中训练生成模型的新挑战,通过连续的模型生成从先前一代模型生成的真实和合成数据的混合进行递归训练。我们构建了一个理论框架,严格评估这种训练方案对未来模型学习到的数据分布的影响。具体地,我们在不同的混合训练场景下,推导出了未来模型生成的合成数据分布与原始真实数据分布之间的总变异(TV)距离的上限。我们的分析表明,在混合训练数据集大小足够大或真实数据比例足够大的条件下,可以有效控制这种距离。有趣的是,我们进一步揭示了由于合成数据量的增加而引起的阶段转变,从理论上证明了 TV 距离在初始上升后会在超过一个阈值点后下降。最后,我们将我们的一般结果特化到扩散模型(diffusion models),提供了关于在自我消耗循环中最佳早停策略的细微见解。
Feb, 2024
本篇论文研究自然语言生成中存在的曝光偏差问题,指出了评估基准的不足之处,并证明在整个质量和多样性空间中,最大似然估计(Maximum-Likelihood)模型在质量和多样性方面表现优于对抗性变体,且温度调整提供了更好的质量 / 多样性权衡。
Nov, 2018
通过学习和演变系统的有效动力学,我们引入生成模型来加速复杂系统的模拟。在提出的 G-LED 中,高维数据的实例被降采样到一个更低维度的流形中,并通过自回归注意机制进行演变。反过来,贝叶斯扩散模型将这个低维流形映射到相应的高维空间,捕捉系统动力学的统计特性。我们在几个基准系统的模拟中展示了 G-LED 的能力和局限性,包括 Kuramoto-Sivashinsky(KS)方程、反向阶梯上的二维高雷诺数流动和三维湍流通道流的模拟。结果表明,生成学习为以更低的计算成本准确预测复杂系统的统计特性开辟了新的前沿。
Feb, 2024