本文提出了一种基于贝叶斯思想的采样方法,可用于确定在反向强化学习环境下实际高置信度策略性绩效界限,并演示如何利用该界限进行风险感知的策略选择和改进。
Jul, 2017
我们考虑了在未知的随机马尔可夫环境或游戏中,从代理人的示范学习的问题。我们旨在估计代理人的偏好,以构建同一任务的改进策略。为了做到这一点,我们将已知 MDP 中逆强化学习的概率方法扩展到未知动态或对手的情况。我们通过导出演示者策略和效用的两个简化概率模型来实现这一点,为了易于处理,我们使用了最大后验估计而不是完整的贝叶斯推断。在先验分布相同的情况下,这结果是凸优化问题。我们发现所得到的算法与其他了解动态的逆强化学习方法相比具有很高的竞争力。
Aug, 2014
研究学习者和专家在视角不一致的情况下,利用逆强化学习算法从专家演示数据中学习近似最优策略的方法。并引入了 “教学风险” 概念,衡量在这种情况下,学习者需要付出的非最优代价,提出了专家可以通过更新学习者的视角,降低教学风险的教学方案。
Oct, 2018
本文提出一种使用少量专家演示来加速 Q-learning 的算法,通过减少对专家数据的依赖程度和逐步降低不相关数据的使用,实现了对数据的更高效利用,实验结果表明该方法在大多数情况下可以比 Hester 等人的演示深度 Q-learning 方法获得更好的结果。
Oct, 2022
我们研究了在顺序决策任务中通过示范进行教学的问题,特别关注教师无法访问学习者的模型和策略,仅有由教师选择的起始状态的轨迹作为反馈的情况。我们通过有限反馈的教学过程进行形式化,并提出了解决该教学问题的算法。该算法使用了改进的主动风险价值法来选择起始状态,改进的最大因果熵算法来推断策略,并使用困难度评分比方法来选择教学示范。我们在合成的汽车驾驶环境中对该算法进行了测试,并得出结论:当学习者的反馈有限时,所提出的算法是一种有效的解决方案。
Sep, 2023
我们提出了一种贝叶斯方法来进行离线模型基于的逆向强化学习 (IRL)。该方法通过同时估计专家的奖励函数和对环境动态的主观模型,与现有的离线模型基于 IRL 方法有所不同。我们利用一类先验分布,参数化了专家对环境的模型准确性,以此开发出高维环境中估计专家奖励和主观动态的高效算法。我们的分析揭示了一个新的观点,即当先验认为专家对环境有高度准确的模型时,估计出的策略表现出了稳健的性能。我们在 MuJoCo 环境中验证了这个观察结果,并展示了我们的算法在离线 IRL 问题上优于最先进的方法。
本文提出了一种名为逆方差强化学习的贝叶斯框架,结合概率一致集和批次逆方差加权,采用两种互补的不确定性估计方法来更好地缓解深强化学习中嘈杂监督的负面影响,从而显著提高了离散和连续控制任务的样本效率。
Jan, 2022
本文介绍一种新的逆强化学习算法,通过深度神经网络模型近似和零和随机博弈的对抗式训练来寻找纳什均衡和奖励函数,解决了以往基于表格表示无法解决的问题。
Jan, 2018
本文介绍一种基于强化学习的半自主智能体,当其对任务成功的信心较低时,通过估计当前状态回报的方差来请求外部帮助,该方法在离线训练期间没有访问专家,并在多个离散导航问题中有效利用有限的专家调用预算。
Mar, 2023
提出了一种自我完善的人工智能系统,通过黑盒验证方法,增强基于强化学习的自主驾驶代理的安全性能。在发现自动驾驶失败情况后,RL 代理的训练通过迁移学习重新初始化,以改善先前不安全的情况的表现