通过快速贝叶斯奖励推断从喜好中进行安全的模仿学习

ICMLFeb, 2020

通过快速贝叶斯奖励推断从喜好中进行安全的模仿学习

Safe Imitation Learning via Fast Bayesian Reward Inference from Preferences

Daniel S. Brown, Russell Coleman, Ravi Srinivasan, Scott Niekum

TL;DRBayesian Reward Extrapolation (Bayesian REX) is an efficient algorithm for high-dimensional imitation learning, which pre-trains a low-dimensional feature encoding and then leverages preferences over demonstrations to perform fast Bayesian inference. The algorithm achieves competitive performance with state-of-the-art methods and enables efficient high-confidence policy evaluation without having access to samples of the reward function.

Abstract

bayesian reward learning from demonstrations enables rigorous safety and uncertainty analysis when performing imitation learning. However, Bayesian reward learning methods are typically computationally intractabl

bayesian reward learning imitation learning high-dimensional problems atari games performance bounds

发现论文，激发创造

通过观察从反强化学习中超越次优演示

本文提出了一种基于 Trajectory-ranked Reward EXtrapolation (T-REX) 算法的强化学习奖励学习方法，该方法可以从一系列排名不佳的示范中开创性地推断出高质量的奖励函数，并结合深度强化学习方法，在多个 Atari 游戏任务上实现了超过最佳演示 2 倍以上的优异表现。

Apr, 2019

REX：AI 代理的快速探索与利用

我们在本文中提出了一种增强的 Rapid Exploration and Exploitation for AI Agents 方法，称为 REX。该方法通过引入额外的奖励层和集成类似于 Upper Confidence Bound (UCB) 分数的概念，提高了 AI 代理的性能。通过与 Chain-of-Thoughts (CoT) 和 Reasoning viA Planning (RAP) 等现有方法进行对比分析，REX 方法表现出相当甚至超过这些现有技术所取得的结果。值得注意的是，REX 方法在执行时间上显著减少，提高了在多种情景中的实际适用性。

Jul, 2023

强化学习中的保护进展：用于控制策略合成的安全贝叶斯探索

这篇论文研究了在强化学习过程中如何保证训练的安全性，通过提出一种新的架构处理效率和安全性之间的权衡，并利用贝叶斯推理和马尔可夫决策过程来近似风险，并通过实验结果展示了整体架构的性能。

Dec, 2023

逆强化学习的高效概率性能界限

本文提出了一种基于贝叶斯思想的采样方法，可用于确定在反向强化学习环境下实际高置信度策略性绩效界限，并演示如何利用该界限进行风险感知的策略选择和改进。

Jul, 2017

贝叶斯鲁棒优化用于模仿学习

提出一种基于贝叶斯鲁棒优化的模仿学习方法（BROIL），旨在有效优化稳健策略，平衡期望收益与条件风险价值，并在风险敏感和风险中性逆强化学习算法中表现优越。

Jul, 2020

使用基于样本的搜索实现高效的贝叶斯自适应强化学习

本研究提出了一种基于蒙特卡洛树搜索 (Monte-Carlo tree search) 的可行的、基于样本的近似贝叶斯最优规划方法，它避免了在搜索树中昂贵的应用贝叶斯规则，通过从当前信念中懒惰地抽样模型。实验证明，与以前的贝叶斯模型为基础的 RL 算法相比，在几个知名的基准问题上，我们的方法表现出了明显的优势。

May, 2012

从单次演示中学习 Montezuma's Revenge

提出了一种新的利用单一示范来学习解决 Montezuma's Revenge 等复杂探索任务的方法，该方法通过最大化奖励来训练代理，缩短了学习时间，降低了任务复杂度。

Dec, 2018

Bayesian 逆强化学习下的演示充分性自主评估

本文提出一种基于贝叶斯反向强化学习和风险价值的自我评估方法，使得能够从演示中学习的智能体能够计算其性能的高置信度界限，并使用这些界限确定何时具有充足数量的演示。

Nov, 2022

RLeXplore: 加速内在动机驱动的强化学习研究

在复杂环境中，由于设计和注释的高人力成本，外部奖励通常无法满足需求，这强调了内在奖励的必要性，通过提供辅助和密集的信号使代理能够无监督学习。本研究引入了一个统一的、高度模块化且可插拔的框架 RLeXplore，提供了八种先进内在奖励算法的可靠实现，并通过深入研究确定了关键的实现细节和合理的标准实践，填补了相关领域的研究空白。

May, 2024

具有不完美专家演示的贝叶斯 Q-learning

本文提出一种使用少量专家演示来加速 Q-learning 的算法，通过减少对专家数据的依赖程度和逐步降低不相关数据的使用，实现了对数据的更高效利用，实验结果表明该方法在大多数情况下可以比 Hester 等人的演示深度 Q-learning 方法获得更好的结果。

Oct, 2022