NetHack 中模仿学习的规模定律

Jul, 2023

Scaling Laws for Imitation Learning in NetHack

Jens Tuyls, Dhruv Madeka, Kari Torkkola, Dean Foster, Karthik Narasimhan...

TL;DR探究模型和数据规模的逐渐扩大对模仿学习的影响，以 NetHack 游戏为基础，发现模仿学习在具有挑战性的领域中的扩展行为，以及在 NetHack 游戏中扩大当前方法以获得更强大的智能体的可行性。

Abstract

imitation learning (IL) is one of the most widely used methods in machine learning. Yet, while powerful, many works find it is often not able to fully recover the underlying expert behavior. However, none of these works deeply investigate the role of →

imitation learning scaling up model size number of samples nethack

发现论文，激发创造

单智能体强化学习的尺度定律

研究表明，生成建模中的交叉熵损失随模型大小和训练计算能力的增加呈幂律加常数比例变化，但在强化学习中，性能目标的变化不一定平稳，因而提出了内生表现作为性能度量标准，通过系列模型中达到所需返回的最小计算量来定义，研究表明内生表现同样随模型大小和环境交互呈幂律变化，与生成建模类似，最优模型大小也随训练计算能力呈幂律变化。

Jan, 2023

使用桌游进行尺度律研究

本文通过使用 AlphaZero 和 Hex 的一系列实验，展示了基于模型大小和问题规模的机器学习实验结果可以被可靠地外推，并且同时可转化为测试和训练时间的计算能力的权衡来维持表现。

Apr, 2021

在 Minecraft 中实现模仿学习的扩展

本研究将模仿学习应用于 Minecraft 环境中的探索问题，通过实验调研了网络结构、损失函数和数据扩充等因素的影响，并取得了良好的表现，可以作为未来竞赛和相关研究的起点。

Jul, 2020

重新审视语言和视觉中的神经缩放定律

本篇研究介绍一种更严谨的方法来预测深度学习中的规模效益，提供了一种可靠的方法来估计缩放参数并通过发布基准数据集以帮助该领域的研究。

Sep, 2022

NetHack 难以攻破

本文研究了神经政策学习在 NetHack 游戏中的表现，分析了符号代理与神经代理在这种环境中的性能差距，并通过建立一个大规模的演示数据集，在动作层次结构、神经架构增强和强化学习与模仿学习的整合方面进行了详细研究。结果表明，我们的神经代理在离线设置和中位游戏分数的在线设置方面均比以前的全神经政策高出了 127％和 25％，但我们也证明仅仅通过扩展网络规模无法弥合符号模型或甚至是顶尖人类玩家的性能差距。

May, 2023

分治学习模仿

本文介绍了一种基于序列归纳偏置的，从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法，将复杂任务拆分成较小的技能，将技能训练为 (goal-conditioned policy)，以便能够逐个解决每个技能并连接技能以完成整个任务，同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。

Apr, 2022

神经语言模型的缩放律

本文研究了语言模型性能对交叉熵损失计算的经验性规律，发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系，而网络宽度或深度变化对性能影响较小，最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。

Jan, 2020

反比缩放：大不一定好

通过运行一个公共比赛，我们在 11 个数据集上提供了逆比例缩放的实证证据，并确定了导致逆比例缩放的四个潜在原因。尽管大型语言模型在整体损失方面具有可预测的规律，但我们的结果表明，模型规模增加本身对某些任务可能不会产生进展，因此对于训练语言模型的数据和目标需要更加谨慎的思考。

Jun, 2023

可再现的对比语言 - 图像学习的比例定律

本研究探索了对比语言 - 图像预训练（CLIP）的缩放定律，使用了公共数据集和开放源代码来研究缩放规律，并发现训练分布在缩放规律中起关键作用。通过在多个下游任务中评估最大规模的公共 CLIP 模型，我们发现在多个下游任务中，有效训练集大小、模型大小和计算量与性能之间具有幂律缩放关系。

Dec, 2022

声学模型的缩放率

本文研究机器学习中的自回归生成模型和声学模型，探讨其性能和规模之间的比例关系，通过预测各项损失量，建立规模预测和性能选择间的联系，提出了几个调整性能的超参数的方案

Jun, 2021