基于生成模型的强化学习与紧凑支持集

Apr, 2024

基于生成模型的强化学习与紧凑支持集

Reinforcement Learning with Generative Models for Compact Support Sets

Nico Schiavone, Xingyu Li

TL;DR使用强化学习作为对基础模型的控制的框架，通过生成小而专注的合成支持集来增强神经网络模型在真实数据分类任务上的性能，而无需额外的标记或数据成本。

Abstract

foundation models contain a wealth of information from their vast number of training samples. However, most prior arts fail to extract this information in a precise and efficient way for small sample sizes. In this work, we propose a framework utilizing →

foundation models reinforcement learning synthetic support sets neural network models classification accuracy

发现论文，激发创造

LiFT: 以基础模型为导师的无监督强化学习

通过基础模型作为教师，我们提出了一个框架，指导一个强化学习代理获取语义有意义的行为，而无需人类反馈。在我们的框架中，代理从大型语言模型中接收在训练环境中基于任务的指令。然后，一个视觉 - 语言模型通过提供奖励反馈来引导代理学习多任务的语言条件化策略。我们证明了我们的方法在具有挑战性的开放式 MineDojo 环境中可以学习语义有意义的技能，而之前的无监督技能发现方法则困难重重。此外，我们讨论了使用现成的基础模型作为教师所面临的挑战，并介绍了我们的努力来解决这些挑战。

Dec, 2023

决策和控制的深度生成模型

本论文旨在研究深度模型强化学习方法的实证不足，并提出解决方案，同时探讨现代生成建模工具箱中推理技术（包括波束搜索、分类器导向抽样和图像修复等）在强化学习问题中的有效规划策略。

Jun, 2023

使用生成环境模型塑造强化学习中的信念状态

本文提出了一种在复杂环境中高效训练表现出色的生成模型的方法，通过预测算法和一个表现出色的生成模型，可以在视觉丰富和动态的 3D 环境中形成稳定的信念状态，并且在强型自由基线代理程序中显著提高数据效率。

Jun, 2019

强化学习中用于语义新颖性的基础模型

本文提出了一种基于 CLIP 的内在奖励，该奖励可以驱动强化学习任务中的探索，进而帮助学习者实现对世界的语义理解与认知，实验表明该方法在处理稀疏奖励、复杂的过程生成任务上比现有方法表现更优异。

Nov, 2022

用于强化学习的快速生成模型的学习和查询

在模型基强化学习中，精心设计的生成模型 —— 状态空间模型可以学习和操作紧凑的状态表述，并且显著降低动作序列预测的计算成本。在广泛的实验中，状态空间模型可以精确捕捉 Atari 游戏的动态，并且提供了高速计算，这使它们在强化学习的决策中具有实用价值。

Feb, 2018

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018

基于基础模型的联合生成学习

本文提出了一种新的联邦生成学习框架，通过在客户端和服务器之间传输与分布式训练数据相关的提示，对信息进行编码和传输，从而综合提高联邦学习的效率和数据隐私性。

Jun, 2023

自适应上下文强化学习

研究智能自主机器人如何通过新方法中的相对熵奖励学习算法来提高样本效率并使学习扩展到更广泛和尖锐的任务上。

Oct, 2019

基础强化学习：面向具有基础先验辅助的行动通用智能体

我们提出了一种新颖而强大的学习范式，名为 Foundation Reinforcement Learning（FRL），该范式完全依赖于具体化的基础先验来进行探索、学习和强化，以实现具身化的通用型智能体。

Oct, 2023

决策堆栈：基于模块化生成模型的灵活强化学习

本研究提出决策栈（Decision Stacks），一种将目标条件策略代理分解为 3 个生成模块的生成框架，其中模块通过独立的生成模型模拟观察、奖励和动作的时间演变，并可并行学习。实验结果证明了 Decision Stacks 在离线策略优化方面的效果，优于现有方法，并实现了灵活的生成决策制定。

Jun, 2023