基于机器人的 POMDP 的贝叶斯强化学习

Jul, 2023

基于机器人的 POMDP 的贝叶斯强化学习

On-Robot Bayesian Reinforcement Learning for POMDPs

Hai Nguyen, Sammie Katt, Yuchen Xiao, Christopher Amato

TL;DR该论文提出了一个面向物理系统的专门框架，利用 Bayesian reinforcement learning（BRL）和专家知识对机器人的学习进行优化，实现了在人机交互任务中的快速学习和处理环境中的不确定性。

Abstract

robot learning is often difficult due to the expense of gathering data. The need for large amounts of data can, and should, be tackled with effective algorithms and leveraging expert information on robot dynamics. Bayesian reinforcement learning (BRL), thanks to its sample efficiency a

robot learning bayesian reinforcement learning expert knowledge physical systems uncertainty

发现论文，激发创造

大型结构化领域中的基于模型的贝叶斯强化学习

本文提出一种基于模型的 Bayesian 强化学习框架，采用因式表示和在线规划技术来提高可扩展性，结合学习动态系统结构和参数，同时制定（近）最优动作序列。

Jun, 2012

机器人操作中贝叶斯模型的主动探索

通过积极学习方法和贝叶斯神经网络模型，提高机器人操纵的模型质量和数据效率，以应对复杂环境下的多任务处理挑战。

Apr, 2024

BADDr: 基于贝叶斯适应性的深度 Dropout RL 用于 POMDPs

本文提出了一种表示无关的、针对部分可观测情况下的贝叶斯强化学习的理论框架，并提出了一种基于 dropout 网络的新方法 BADDr，旨在解决 BRL 方法在拓展性上存在的瓶颈，并证实其在处理规模较大的情况时的有效性。

Feb, 2022

基于模型的前瞻性强化学习

本论文结合模型推理控制与模型无关的深度强化学习方法，提出一种更加高效的学习框架，并在标准的连续控制基准任务中取得了与模型无关方法相当的性能表现。

Aug, 2019

一种鲁棒逆强化学习的贝叶斯方法

我们提出了一种贝叶斯方法来进行离线模型基于的逆向强化学习 (IRL)。该方法通过同时估计专家的奖励函数和对环境动态的主观模型，与现有的离线模型基于 IRL 方法有所不同。我们利用一类先验分布，参数化了专家对环境的模型准确性，以此开发出高维环境中估计专家奖励和主观动态的高效算法。我们的分析揭示了一个新的观点，即当先验认为专家对环境有高度准确的模型时，估计出的策略表现出了稳健的性能。我们在 MuJoCo 环境中验证了这个观察结果，并展示了我们的算法在离线 IRL 问题上优于最先进的方法。

Sep, 2023

POMDP 的深层变分强化学习

本文提出了一种深度变分强化学习方法，该方法引入了归纳偏置，允许代理学习环境的生成模型并在该模型中执行推断以有效地聚合可用信息。通过在 Mountain Hike 和 flickering Atari 的实验中表明，我们的方法优于先前依赖于循环神经网络对过去进行编码的方法。

Jun, 2018

模仿引导强化学习

利用有限的模仿数据进行自主性提升的开创性框架 —— 模仿引导强化学习（IBRL），在从像素学习的模拟中实现了 7 个具有挑战性的稀疏奖励连续控制任务的最新性能和样本效率，是 RLPD 方法的 6.4 倍成功率的新亮点。

Nov, 2023

机器人快速在线适应通过模拟先验元学习嵌入

提出了一种名为 FAMLE 的元学习算法，通过元训练多个起始点来适应不同的机器人动力学，从而在少量数据点的情况下，使机器人能够选择最适合的起始点以适应当前的情况。在模拟和真实的机器人任务中，FAMLE 相对于基线算法可以更快适应新的损伤。

Mar, 2020

利用贝叶斯强化学习辅助导航以避免盲点中的人群

本研究介绍了一种新的算法 BNBRL+，基于部分可观测的马尔科夫决策过程框架评估不可见区域的风险，并在不确定性下制定移动策略，通过将信念算法与贝叶斯神经网络相结合，根据人类的定位数据以概率推断信念，进一步整合机器人、人类和推断信念之间的动力学，确定导航路径并将社交规范嵌入奖励函数中，从而促进了社会感知导航。通过在各种风险环境中进行实验，验证了 BNBRL + 在导航拥挤环境中具有盲区时的有效性。模型在能见度受限的空间中有效导航并动态避开障碍物的能力可以显著提高自动驾驶车辆的安全性和可靠性。

Mar, 2024

继续做有效的事情：行为建模先验用于离线强化学习

本文提出了一种能够适用于机器人控制等实际问题，同时在批处理状态下能够有效学习的算法，该算法采用了优势加权行为模型 (ABM) 来对先前执行过的成功动作进行刻画，并对新的任务中可能成功的动作进行策略偏置，实验表明我们的算法在标准连续控制基准测试和多任务学习中都有着较好的效果。

Feb, 2020