反差式贝叶斯自适应深度强化学习

ICMLJun, 2023

反差式贝叶斯自适应深度强化学习

ContraBAR: Contrastive Bayes-Adaptive Deep RL

Era Choshen, Aviv Tamar

TL;DR本文提出了一种基于对比学习方法的元 RL 算法 ContraBAR，可以在状态观测及基于图像观测的领域中有效地学习 Bayes 最优行为，并可以与图像增强相结合，用于领域随机化，并可以无缝地应用于在线和离线元 RL 设置。

Abstract

In meta reinforcement learning (meta RL), an agent seeks a Bayes-optimal policy -- the optimal policy when facing an unknown task that is sampled from some known task distribution. Previous approaches tackled this problem by inferring a belief over task parameters, using variational in

meta reinforcement learning bayes-optimal policy contrastive methods cpc contrabar

发现论文，激发创造

VariBAD：基于元学习的 Bayes - 自适应深度强化学习的非常好方法

本研究提出了一种元学习方法 —— 变分 Bayes 适应深度强化学习 (variBAD)，用于在未知环境中进行结构化在线探索，通过直接考虑任务不确定性进行动作选择，在 MuJoCo 领域的实验证明，相较于现有方法，variBAD 能够获得更高的在线收益。

Oct, 2019

元强化学习作为任务推断

本文提出一种在元强化学习中用于解决任务信息受限问题的方法，通过利用各种特权信息，分别学习策略和任务信念来解决部分可观测马尔可夫决策问题，从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。

May, 2019

离线元学习探索

通过离线数据，基于贝叶斯强化学习视角提出 Offline Meta Reinforcement Learning 问题，研究如何设计元智能体以快速最大化相同任务分布下不同任务中的奖励收益，探究探索策略、MDP 歧义以及稀疏奖励任务等相关问题，最终拥有超越离线数据中单个 RL 代理的探索策略。

Aug, 2020

对比学习作为目标条件强化学习

本文提出了基于对比学习的强化学习算法，通过学习动作标记的轨迹对比学习来直接获得好的表示，并成功地将其应用于目标条件 RL 任务。在一系列任务中，对比 RL 方法表现更好，且不需要使用数据增强或辅助目标。

Jun, 2022

通过概率上下文变量实现高效的离线元强化学习

本文提出了一种离线元强化学习算法，通过在线概率过滤隐含的任务变量来推断如何从少量经验中解决新任务，实现了结构化和有效的探索。该方法在几个元 - 强化学习基准测试中，比先前算法在样本效率和渐近性能方面提高了 20-100 倍。

Mar, 2019

基于对比学习的深度强化学习中的代理建模

多代理系统中，对智能机器代理进行适应性策略设计时，代理建模是至关重要的，通过代理建模可以理解其他代理的行为并提取有意义的策略表示，为增强自我代理的适应性策略提供帮助。这篇研究以对比学习为基础的代理建模方法（CLAM）只依赖于自我代理在训练和执行过程中的局部观察，可以实时生成一致且高质量的策略表示，且在合作和竞争多代理环境中取得了最先进的结果，突显了对比学习为基础的代理建模在增强式学习中的潜力。

Dec, 2023

CoBERL: 强化学习的对比学习 BERT

该论文提出了通过使用新的对比度损失和混合 LSTM-transformer 架构组合来改进 Reinforcement Learning (强化学习) 代理的数据效率，从而实现在广泛领域内对像素的高效、稳健学习的 Contrastive BERT for RL (CoBERL)。该方法通过双向掩码预测与最近对比方法的泛化相结合，学习 RL 中更好的 Transformer 表示，同时在 Atari 套装、控制任务和具有挑战性的 3D 环境中保持性能的一致改进。

Jul, 2021

对比上限置信区间算法：在在线强化学习中具有可证明高效的对比自监督学习

通过最小化对比损失，提取正确的特征表达，将自对比自监督学习引入马尔可夫决策过程和马尔可夫游戏中，进一步提出结合在线 RL 算法的 UCB-type 算法，理论上提出我们的算法恢复真实表示，并同时在学习最优政策和 Nash 平衡方面实现样本效率。

Jul, 2022

有限训练任务下的元强化学习 —— 一种密度估计方法

本研究探讨使用密度估计技术，直接学习任务分布并在其上训练策略以最大化回报，从而实现元强化学习的有效性问题，结果表明，与基于历史策略的学习方法相比，我们的方法具有更好的效果，特别是在任务分布存在低维流形的情况下。

Jun, 2022

通过对比学习实现离线元强化学习的稳健任务表示

在离线元强化学习的背景下，提出了一种对抗学习框架，用于学习对行为策略不敏感的任务表示，并通过对各种离线元强化学习基准测试的实验，展示了该方法相比之前的方法在行为策略的泛化能力方面的优越性。

Jun, 2022