行动条件自预测强化学习的统一框架

Jun, 2024

行动条件自预测强化学习的统一框架

A Unifying Framework for Action-Conditional Self-Predictive Reinforcement Learning

Khimya Khetarpal, Zhaohan Daniel Guo, Bernardo Avila Pires, Yunhao Tang, Clare Lyle...

TL;DR自预测学习是增强学习代理的关键挑战之一，本文通过分析一个考虑行动条件的自预测目标（BYOL-AC），利用 ODE 框架描述其收敛性质，并突出 BYOL-Pi 和 BYOL-AC 动力学之间的重要区别，展示了两个表示之间的差异和联系。在线性函数逼近和深度 RL 环境中的实证研究结果表明，在各种不同场景下，BYOL-AC 具有更好的性能。

Abstract

Learning a good representation is a crucial challenge for Reinforcement Learning (RL) agents. self-predictive learning provides means to jointly learn a latent representation and dynamics model by bootstrapping f

reinforcement learning agents self-predictive learning latent representation byol-ac convergence properties

发现论文，激发创造

BYOL-Explore: 基于自举预测的探索

BYOL-Explore 通过优化单一预测损失，在潜在空间中学习世界表示、世界动态和探索策略，实现在视觉复杂环境下的好奇心驱动探索。此方法可有效解决部分可观察连续行动的具有挑战性的难度探索基准和 Atari 游戏等任务。

Jun, 2022

理解强化学习中的自预测学习

本篇研究探讨了自预测学习的学习动态，通过对优化动态的设计，提出了双向自学习算法，并通过一系列实验验证了该算法的有效性。

Dec, 2022

简化基于模型的强化学习：使用单一目标学习表示、潜空间模型和策略

本研究提出了一种单一目标的方法，该方法同时优化隐空间模型和策略以实现高回报并保持自一致性，从而在提高样本效率的同时实现更好的强化学习效果。

Sep, 2022

离线信任学习

该研究提出了一种名为 off-belief learning（OBL）的方法，通过多层次认知推理来解决基于自习的 Dec-POMDPs（分布式部分可观测马尔科夫决策过程）在测试阶段无法适应人类行为模式的问题，并在 Hanabi 基准测试中展现了强大的表现。

Mar, 2021

简化的时间一致增强学习

本文展示了一种简单的表示学习方法：只依赖于通过潜在时间一致性训练的潜在动态模型，既可以在计划类的强化学习中使用，也可以在基于模型的强化学习中作为策略和价值函数特征使用。该方法在高维度任务上优于模型无关方法，并在样本效率上达到了模型类方法的水平。

Jun, 2023

多任务强化学习的引导潜在预测表示

这篇论文介绍了一种基于多步预测表示未来观察结果的自监督表示学习算法 Prediction of Bootstrap Latents（PBL），它专注于捕捉与环境动态相关的结构信息，并在 DMLab-30 和 Atari-57 等多任务设置中实现了跨越式的性能提升。

Apr, 2020

离线策略评估和优化的自回归动态模型

提出了一种基于自回归动力学模型的控制模型，分析了其在离线数据集 RL Unplugged 中的表现，证明其在策略优化中具有潜在应用。

Apr, 2021

连接状态与历史表征：理解自预测强化学习

深度强化学习的关键是表示方法，这篇论文揭示了多种表示学习方法和理论框架之间的共同性，特别是基于自预测抽象的思想，并给出了学习自预测表示方法的最简算法和实用指南。

Jan, 2024

动态感知嵌入

本文提出一种自监督表示学习方法，通过正向预测目标同时学习环境状态和动作序列的嵌入表示，以提高强化学习的采样效率和策略学习性能。研究表明，使用本文提出的动作嵌入表示已经能够在低维状态下有效提高模型无关的强化学习的采样效率和峰值性能。同时，结合状态嵌入和动作嵌入表示可以在只进行 100-200 万次环境步骤的情况下，快速、高效地学习高质量的基于目标条件的连续控制策略。

Aug, 2019

透视强化学习的庞特里亚金方法

传统上，强化学习集中于学习状态相关策略以解决闭环最优控制问题；本文提出了开环强化学习范式，通过学习固定行动序列，引入了三种新算法：一种鲁棒的基于模型的方法和两种高效的无模型方法。基于开环最优控制理论中的庞特里亚金原理，而非动态规划中的贝尔曼方程，我们提供了收敛性保证，并在振子摆起任务以及两个高维 MuJoCo 任务上通过实证评估展示了与现有基线方法相比显着的性能。

May, 2024