基于生成模型的强化学习与紧凑支持集
通过基础模型作为教师,我们提出了一个框架,指导一个强化学习代理获取语义有意义的行为,而无需人类反馈。在我们的框架中,代理从大型语言模型中接收在训练环境中基于任务的指令。然后,一个视觉 - 语言模型通过提供奖励反馈来引导代理学习多任务的语言条件化策略。我们证明了我们的方法在具有挑战性的开放式 MineDojo 环境中可以学习语义有意义的技能,而之前的无监督技能发现方法则困难重重。此外,我们讨论了使用现成的基础模型作为教师所面临的挑战,并介绍了我们的努力来解决这些挑战。
Dec, 2023
本论文旨在研究深度模型强化学习方法的实证不足,并提出解决方案,同时探讨现代生成建模工具箱中推理技术(包括波束搜索、分类器导向抽样和图像修复等)在强化学习问题中的有效规划策略。
Jun, 2023
本文提出了一种在复杂环境中高效训练表现出色的生成模型的方法,通过预测算法和一个表现出色的生成模型,可以在视觉丰富和动态的 3D 环境中形成稳定的信念状态,并且在强型自由基线代理程序中显著提高数据效率。
Jun, 2019
本文提出了一种基于 CLIP 的内在奖励,该奖励可以驱动强化学习任务中的探索,进而帮助学习者实现对世界的语义理解与认知,实验表明该方法在处理稀疏奖励、复杂的过程生成任务上比现有方法表现更优异。
Nov, 2022
在模型基强化学习中,精心设计的生成模型 —— 状态空间模型可以学习和操作紧凑的状态表述,并且显著降低动作序列预测的计算成本。在广泛的实验中,状态空间模型可以精确捕捉 Atari 游戏的动态,并且提供了高速计算,这使它们在强化学习的决策中具有实用价值。
Feb, 2018
提出了一种基于奖励模型的框架,它使得机器学习代理能学习到语言指令, 并通过这些指令执行任务,而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离,在简单的网格世界中,使代理能够学习一系列涉及块的交互和对空间关系的理解的指令, 且无需新的专家数据就可以适应环境的变化。
Jun, 2018
我们提出了一种新颖而强大的学习范式,名为 Foundation Reinforcement Learning(FRL),该范式完全依赖于具体化的基础先验来进行探索、学习和强化,以实现具身化的通用型智能体。
Oct, 2023
本研究提出决策栈(Decision Stacks),一种将目标条件策略代理分解为 3 个生成模块的生成框架,其中模块通过独立的生成模型模拟观察、奖励和动作的时间演变,并可并行学习。实验结果证明了 Decision Stacks 在离线策略优化方面的效果,优于现有方法,并实现了灵活的生成决策制定。
Jun, 2023