基于模型的规划代理行为保证的奖励上界

ICLRFeb, 2024

基于模型的规划代理行为保证的奖励上界

Reward Bound for Behavioral Guarantee of Model-based Planning Agents

Zhiyu An, Xianzhong Ding, Wan Du

TL;DR近年来，对机器学习代理在野外，尤其是机器人领域的可信度产生了日益浓厚的兴趣，以提供行业的安全保证。我们的研究工作主要关注保证基于模型的规划代理在特定未来时间步达到目标状态的问题，通过展示目标状态的奖励存在一个下界，当该奖励低于该下界时，无法达成此类保证，并通过推广展示如何实现多个目标之间的优先级。

Abstract

Recent years have seen an emerging interest in the trustworthiness of machine learning-based agents in the wild, especially in robotics, to provide safety assurance for the industry. Obtaining behavioral guarantees for these agents remains an important problem. In this work, we focus o

trustworthiness machine learning-based agents model-based planning reward goal state

发现论文，激发创造

通过想象近未来来实现安全强化学习

本研究关注应用于现实世界问题中的强化学习算法，提出了一种基于模型的算法可以规避不安全状态并降低安全违规，在连续控制任务中取得相当的回报.

Feb, 2022

提高代理学习的方法：保证所有回合实现目标

强化学习是解决环境并实现目标达成的框架，该研究提出了一种灵活的算法来提升学习效率并确保目标达成的性质。通过实验证明，该算法能够增强学习效果并保持目标的达成性质。

May, 2024

基于目标条件策略的规划

本文提出了一种结合规划方法和强化学习的方法，利用强化学习学习目标驱动策略，从而让规划方法更好地实现任务；同时利用一个潜在变量模型来简洁地表示规划中的有效状态，从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。

Nov, 2019

使用目标条件强化学习的路径规划中的全控制智能体

本研究提出了一种新的强化学习框架来帮助完全可控的智能体进行路径规划，并通过使用双向记忆编辑方法得到智能体的不同双向轨迹，隔离政策网络并利用专门的子目标网络来将智能体移动至不同方向，最后通过奖励形态化来缩短智能体到达目标的步骤数。实验结果表明，智能体能够到达训练中从未到达过的各种目标，并且能够使用奖励形态化来选择较短的路径。

May, 2022

基于模型的强化学习中贪心策略的严格遗憾界

本文聚焦在有限状态有限时间的马尔科夫决策过程设置下的模型基 RL，证明了探索具有贪心策略可以实现紧密的极小极大性能，从而完全避免使用 full-planning，而复杂度降为 S，并通过实时动态规划进行了新颖的分析。

May, 2019

面向符号自动机编码目标的无模型强化学习

本文提出使用符号自动机的形式规范，来代替马尔可夫奖励，并定义了使用潜在奖励的策略，来提高强化学习的收敛性。

Feb, 2022

自适应信息信念空间规划

该研究旨在使用奖励函数来有效地做出明智的决策，通过提出抽象观测模型来降低计算成本并推导出期望信息论奖励函数的界限以及价值函数的界限，同时，提出了一种用于改善聚合方法的方法，实现了相同动作选择的计算时间减少。

Jan, 2022

道德不确定性下的强化学习

该研究论文提出两种训练方法实现不同的期望，通过在简单环境中训练智能体在道德不确定性下行动，从而促进具有道德能力的代理人的进展，并突显强化学习对道德哲学的计算基础的潜力。

Jun, 2020

前向 - 后向强化学习

通过训练一个模型来从已知的目标状态开始进行逆向预测，将强化学习中的目标函数引入到代理中，从而加速训练过程，并在 Gridworld 和汉诺塔游戏中进行了实验验证。

Mar, 2018

基于不确定性感知的强化学习，用于人在循环机器人代理的决策制定

本文介绍一种基于强化学习的半自主智能体，当其对任务成功的信心较低时，通过估计当前状态回报的方差来请求外部帮助，该方法在离线训练期间没有访问专家，并在多个离散导航问题中有效利用有限的专家调用预算。

Mar, 2023