风险感知主动逆强化学习

Jan, 2019

Risk-Aware Active Inverse Reinforcement Learning

Daniel S. Brown, Yuchen Cui, Scott Niekum

TL;DR本文提出一种风险感知主动逆强化学习算法，旨在最小化机器人正在学习的策略的性能风险，并将主动查询集中在具有潜在大通用误差的状态空间区域，证明该算法在网格世界、模拟驾驶和桌子铺设任务上优于标准主动逆强化学习方法，并提供一种基于性能的停止准则，使机器人知道何时已接受足够的演示以安全地执行任务。

Abstract

active learning from demonstration allows a robot to query a human for specific types of input to achieve efficient learning. Existing work has explored a variety of active query strategies; however, to our knowl

active learning performance risk inverse reinforcement learning robot demonstrations

发现论文，激发创造

逆强化学习的主动探索

本文提出使用主动探索策略的逆强化学习算法（AceIRL），该算法通过构造置信区间捕捉潜在的奖励函数，寻找信息最充分的环境区域的探索策略，从而快速学习专家的奖励函数和制定一个良好的策略。AceIRL 是第一种不需要环境生成模型并具有样本复杂度界限的主动逆强化学习方法，并与具备环境生成模型情况下的样本复杂度相匹配，在模拟实验中证明 AceIRL 优于其他探索策略。

Jul, 2022

对比风险预测下的安全强化学习

提出一种针对强化学习任务的风险预防训练方法，基于统计对比分类器，以预测状态 - 动作对导致不安全状态的概率，并且通过收集风险预防轨迹和重塑奖励函数，来引导安全强化学习策略。在机器人仿真环境中进行实验，结果表明该方法与现有的模型模式方法的表现相当，且优于传统的模型自由的安全强化学习方法。

Sep, 2022

学习感知交互式自主安全性

为了确保机器人等自主车辆的广泛部署，本文提出了一种新的闭环范式用于综合安全控制策略，明确考虑系统在可能的未来情景下的演变不确定性，通过物理动力学和机器人的学习算法共同推理，利用对抗深度强化学习进行放大，展示了该框架能够处理贝叶斯信念传播和大规模预训练神经轨迹预测模型引起的隐式学习。

Sep, 2023

有限反馈下交互式教授逆强化学习器

我们研究了在顺序决策任务中通过示范进行教学的问题，特别关注教师无法访问学习者的模型和策略，仅有由教师选择的起始状态的轨迹作为反馈的情况。我们通过有限反馈的教学过程进行形式化，并提出了解决该教学问题的算法。该算法使用了改进的主动风险价值法来选择起始状态，改进的最大因果熵算法来推断策略，并使用困难度评分比方法来选择教学示范。我们在合成的汽车驾驶环境中对该算法进行了测试，并得出结论：当学习者的反馈有限时，所提出的算法是一种有效的解决方案。

Sep, 2023

自主驾驶中的强化学习智能体风险感知奖励塑形

该研究提出了一种基于风险感知的奖励塑形方法，以鼓励探索和惩罚高风险驾驶行为，并在 OpenAI Gym 的模拟研究中表明，风险感知的奖励塑形对于各种强化学习智能体具有优势，同时指出近端策略优化（PPO）是最适合使用风险感知奖励塑形的强化学习方法。

Jun, 2023

在线巴累托最优决策中的主动推理

本研究旨在引入一种新颖的多目标强化学习框架，确保任务的安全执行，优化目标之间的权衡，并符合用户的偏好。该框架包含两个主要层次：多目标任务规划器和高层选择器。通过案例研究和基准测试，证明了我们的框架在操作和移动机器人方面优于其他方法，并且能够学习多个最优权衡解决方案，符合用户的偏好，并允许用户调整优化权衡的平衡。

Jun, 2024

导航中基于干预支持的强化学习策略优化的安全及实际方法

本文提出了一种人工干预辅助下的强化学习框架，将深度神经网络应用于无人机自治导航，实现了减少人为干预、性能提升、安全性保障和控制成本可接受的目标。

Nov, 2018

风险规避的批次主动逆向奖励设计

通过批处理逐渐优化查询的可能奖励函数的概率分布，在保证安全性的同时，提高效率和准确性，以及适应处理未知特征并对重要的 AI 模型进行调整。

Nov, 2023

使用主动推理的贝叶斯策略选择

该论文研究了基于自由能原理的主动推理对机器学习中的强化学习和示范学习问题的解决，并将此概念应用于标准问题山车问题，结果表明主动推理可以涵盖强化学习和示范学习技术。

Apr, 2019

降低支持强化学习策略的风险与扩散模型

应用强化学习和模仿学习改进辅助机器人的策略设计，以提供安全可靠的辅助护理解决方案。

May, 2024