NetHack 中模仿学习的规模定律
研究表明,生成建模中的交叉熵损失随模型大小和训练计算能力的增加呈幂律加常数比例变化,但在强化学习中,性能目标的变化不一定平稳,因而提出了内生表现作为性能度量标准,通过系列模型中达到所需返回的最小计算量来定义,研究表明内生表现同样随模型大小和环境交互呈幂律变化,与生成建模类似,最优模型大小也随训练计算能力呈幂律变化。
Jan, 2023
本文通过使用 AlphaZero 和 Hex 的一系列实验,展示了基于模型大小和问题规模的机器学习实验结果可以被可靠地外推,并且同时可转化为测试和训练时间的计算能力的权衡来维持表现。
Apr, 2021
本研究将模仿学习应用于 Minecraft 环境中的探索问题,通过实验调研了网络结构、损失函数和数据扩充等因素的影响,并取得了良好的表现,可以作为未来竞赛和相关研究的起点。
Jul, 2020
本文研究了神经政策学习在 NetHack 游戏中的表现,分析了符号代理与神经代理在这种环境中的性能差距,并通过建立一个大规模的演示数据集,在动作层次结构、神经架构增强和强化学习与模仿学习的整合方面进行了详细研究。结果表明,我们的神经代理在离线设置和中位游戏分数的在线设置方面均比以前的全神经政策高出了 127%和 25%,但我们也证明仅仅通过扩展网络规模无法弥合符号模型或甚至是顶尖人类玩家的性能差距。
May, 2023
本文介绍了一种基于序列归纳偏置的,从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法,将复杂任务拆分成较小的技能,将技能训练为 (goal-conditioned policy),以便能够逐个解决每个技能并连接技能以完成整个任务,同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。
Apr, 2022
本文研究了语言模型性能对交叉熵损失计算的经验性规律,发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系,而网络宽度或深度变化对性能影响较小,最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。
Jan, 2020
通过运行一个公共比赛,我们在 11 个数据集上提供了逆比例缩放的实证证据,并确定了导致逆比例缩放的四个潜在原因。尽管大型语言模型在整体损失方面具有可预测的规律,但我们的结果表明,模型规模增加本身对某些任务可能不会产生进展,因此对于训练语言模型的数据和目标需要更加谨慎的思考。
Jun, 2023
本研究探索了对比语言 - 图像预训练(CLIP)的缩放定律,使用了公共数据集和开放源代码来研究缩放规律,并发现训练分布在缩放规律中起关键作用。通过在多个下游任务中评估最大规模的公共 CLIP 模型,我们发现在多个下游任务中,有效训练集大小、模型大小和计算量与性能之间具有幂律缩放关系。
Dec, 2022