强化学习的对比初始状态缓冲器

Sep, 2023

Contrastive Initial State Buffer for Reinforcement Learning

Nico Messikommer, Yunlong Song, Davide Scaramuzza

TL;DR强化学习中，探索和利用之间的权衡对于从有限样本中实现有效学习提出了复杂的挑战。我们引入了对比初始状态缓冲区的概念，独立于底层的强化学习算法，选择过去的经验中的状态并使用它们来初始化环境中的智能体，以引导它朝着更有信息量的状态发展。实验结果表明，我们的初始状态缓冲区在任务性能方面超过了基准线，同时还加速了训练收敛。

Abstract

In reinforcement learning, the trade-off between exploration and exploitation poses a complex challenge for achieving efficient learning from limited samples. While recent works have been effective in leveraging

reinforcement learning exploration and exploitation past experiences contrastive initial state buffer task performance

发现论文，激发创造

信息瓶颈下的传递和探索

提出了一种利用信息瓶颈机制学习判决状态的增值方法，通过对观察的状态进行分析，识别有潜力的子目标进行新的探索，并指导代理经过判决状态和状态空间的新区域。

Jan, 2019

使用对比样本在强化学习中识别和利用可能的因果关系

本文提出了一种名为对比经验回放的训练方法，通过标记与前后奖励差异较大的状态转移，将其加入独立的回放缓冲区，并包括来自类似状态但不同行动的对比样本，该方法在 2D 导航任务上优于标准基于值的方法，对许多离线策略强化学习算法也具有广泛应用价值。

Oct, 2022

节俭的演员 - 评论家：使用独特经验的高效离策略深度强化学习

通过选择唯一的样本并将其添加到重放缓冲区，以减小缓冲区大小并保持样本的独立和等分布性的目标，本研究提出了一种实现样本效率的方法。通过在随机探索的初始阶段从所遇到的经验中选择重要的状态变量的子集，将状态空间划分为一组抽象状态，并通过使用核密度估计量选择具有唯一状态 - 奖励组合的经验。我们证明了采用所提出的独特经验积累方法的离策略演员 - 评论家算法比纯粹的离策略演员 - 评论家算法收敛更快。此外，我们通过与 Gym 环境中的两种最先进的演员 - 评论家强化学习算法进行比较来评估我们的方法。实验结果表明，与基准算法相比，我们的方法在各项连续控制基准测试中显著减小了重放缓冲区的大小，同时实现更快的收敛或更好的奖励积累。

Feb, 2024

基于邻近状态的强化学习探索

本文研究了强化学习中的探索开发平衡问题，并提出两种基于邻近状态的无模型探索算法，其中一种方法（${ho}$-explore）在离散环境中相比于基准算法 Double DQN，在评估奖励回报方面提高了 49％。

Dec, 2022

回顾状态：将模拟和真实任务要素融合以实现高效强化学习

通过把任务分解成不同的部分并利用动态的不平衡性，使用 “Hindsight States” 方法使得机器人学习更加高效。在多项挑战性仿真测试和一个真正的机器人示例中验证了该方法的有效性。

Mar, 2023

使用本地遗忘的回放缓冲器进行自适应深度模型强化学习

本文探讨了在深度强化学习中，如何使用改进后的 replay buffer 来解决 catastrophic forgetting 和 stale data 的问题，从而实现在环境变化时能够更加高效地应对。

Mar, 2023

通过密度估计进行好奇心驱动的经验优先排序

提出了一种好奇心驱动的优先级策略（CDP）框架，通过模仿人类学习流程，着力于相对罕见的事件，使得机器人在强化学习中更加高效地学习并提高性能。

Feb, 2019

基于记忆的轨迹条件策略在稀疏奖励学习中的应用

本文提出了一种基于轨迹条件的策略学习方法，通过从内存缓冲区中展开多种多样的过去轨迹，可帮助策略创造者更好地探索状态空间，并在各种复杂任务中显著提高模型性能。（本方法可以不用专家演示或将模型重置为任意状态，在 Atari 游戏 Montezuma's Revenge 和 Pitfall 的五十亿帧内取得了最先进的得分）

Jul, 2019

MEET: 一种用于缓冲区采样的 Monte Carlo 探索 - 利用权衡算法

本文提出了一种新的采样策略，基于 Q 值函数的不确定性估计，指导采样探索更重要的转移，从而学习到更有效的策略，实验表明，在各种环境下，该方法在收敛和峰值性能方面的表现平均超过现有策略 26%。

Oct, 2022

RICE: 强化学习训练突破瓶颈的解释方法

我们提出了一种创新的强化学习改进方案 RICE，该方案通过结合默认初始状态和通过解释方法确定的关键状态构建新的初始状态分布，以鼓励智能体从混合的初始状态进行探索，理论上保证了改进方案具有更紧密的次最优性限制，评估结果表明 RICE 在增强智能体性能方面显著优于现有的改进方案。

May, 2024