基于能量模型的奖励条件下贝叶斯重新参数化增强学习

ICMLMay, 2023

基于能量模型的奖励条件下贝叶斯重新参数化增强学习

Bayesian Reparameterization of Reward-Conditioned Reinforcement Learning with Energy-based Models

Wenhao Ding, Tong Che, Ding Zhao, Marco Pavone

TL;DR提出了一种名为 Bayesian Reparameterized RCRL（BR-RCRL）的奖励条件强化学习新方法，它通过消除强化学习在高奖励输入下的独立性偏见和处理预测行为射线分布的问题，取得了比传统方法高出 11% 的性能在 Gym-Mujoco 和 Atari 离线 RL 基准中.

Abstract

Recently, reward-conditioned reinforcement learning (RCRL) has gained popularity due to its simplicity, flexibility, and off-policy nature. However, we will show that current RCRL approaches are fundamentally limited and fail to address two critical challenges of RCRL -- improving

reward-conditioned reinforcement learning bayesian reparameterization generalization high reward-to-go inputs out-of-distribution queries

发现论文，激发创造

一种鲁棒逆强化学习的贝叶斯方法

我们提出了一种贝叶斯方法来进行离线模型基于的逆向强化学习 (IRL)。该方法通过同时估计专家的奖励函数和对环境动态的主观模型，与现有的离线模型基于 IRL 方法有所不同。我们利用一类先验分布，参数化了专家对环境的模型准确性，以此开发出高维环境中估计专家奖励和主观动态的高效算法。我们的分析揭示了一个新的观点，即当先验认为专家对环境有高度准确的模型时，估计出的策略表现出了稳健的性能。我们在 MuJoCo 环境中验证了这个观察结果，并展示了我们的算法在离线 IRL 问题上优于最先进的方法。

Sep, 2023

关于可重参数化强化学习中的泛化差距

研究重点在于利用再参数化技巧解决强化学习的泛化问题，并利用监督学习和迁移学习理论分析其推广能力，结果证明推广能力与环境转移、回报和策略函数类等因素有关。

May, 2019

基于课程引导的贝叶斯强化学习的 ROI 受限出价

该篇论文描述了如何使用部分可观测马尔可夫决策过程方法做到在高度动态的广告市场中，自适应平衡 ROI 约束和目标优化的需求并提出了一种调整策略的贝叶斯强化学习框架。

Jun, 2022

将离线强化学习重新构建为回归问题

该研究将离线强化学习重新定义为一个可以用决策树解决的回归问题，通过梯度提升树可以实现快速训练和推理，同时对通用性进行了讨论。

Jan, 2024

基于 Transformer 的袋装奖励增强学习：面向实例级奖励重新分配的方法

提出了一种称为 RLBR（Reinforcement Learning from Bagged Rewards）的新型 RL 设置，使用基于 Transformer 的奖励模型（Reward Bag Transformer）来探索袋装奖励中的奖励分布，并展示了其在上下文理解和环境动态适应性方面的卓越性能。

Feb, 2024

基于强对偶性的分布鲁棒约束强化学习

本研究通过基于强对偶性的算法框架，在环境不确定性的一个类别中提出了第一个高效且可证明的解决方法，来解决分布鲁棒受限强化学习（DRC-RL）问题，该问题旨在最大化预期奖励，同时受制于环境分布变化和约束条件。

Jun, 2024

应用示范引导强化学习来对抗 LLM 中的奖励过度优化

利用人类示范和奖励模型重新校准奖励目标，通过最小化示范与语言模型的奖励之间的距离来避免对语言模型的奖励模型进行操纵和促进更自然、多样化的语言生成。

Apr, 2024

贝叶斯鲁棒优化用于模仿学习

提出一种基于贝叶斯鲁棒优化的模仿学习方法（BROIL），旨在有效优化稳健策略，平衡期望收益与条件风险价值，并在风险敏感和风险中性逆强化学习算法中表现优越。

Jul, 2020

基于机器人的 POMDP 的贝叶斯强化学习

该论文提出了一个面向物理系统的专门框架，利用 Bayesian reinforcement learning（BRL）和专家知识对机器人的学习进行优化，实现了在人机交互任务中的快速学习和处理环境中的不确定性。

Jul, 2023

BADDr: 基于贝叶斯适应性的深度 Dropout RL 用于 POMDPs

本文提出了一种表示无关的、针对部分可观测情况下的贝叶斯强化学习的理论框架，并提出了一种基于 dropout 网络的新方法 BADDr，旨在解决 BRL 方法在拓展性上存在的瓶颈，并证实其在处理规模较大的情况时的有效性。

Feb, 2022