利用 POMDP 树搜索进行奖励模型调和的解释
通过使用用户提供的反事实来生成 POMDP 策略的对比解释,探索可解释人工智能的方法以提高系统透明度并建立信任,本文以 Search and Rescue (SAR) 为例进行了分析和讨论相关挑战。
Mar, 2024
本文提出了一种新算法,用于部分可观测的马尔可夫决策过程中的反向强化学习,可增加数据效率并减少信息不对称,通过融合时间逻辑表达式作为先验信息,使用因果熵而不是熵,防止算法复杂度的通用来源,有效地解决了非凸问题,并在高级 Unity 仿真器中进行了实验,结果表明该算法具有较高的性能。
Dec, 2022
一个 RL 算法,可以通过端到端训练来估算隐藏状态,并将估算可视化为状态转换图。 实验结果表明,该算法可以解决简单的 POMDP 问题,并使代理行为可解释给人类。
Apr, 2023
本文提出了一种基于对话的方法来计算模型协调问题的解决方案,该方法假定机器人不知道人类模型,机器人和人类共享计划域的谓词集,并且交流的内容是关于动作描述和流形值的交换。通过对话,机器人向人类发送潜在的解释,被称为提案,人类回复其提案的评估,被称为响应。
Aug, 2022
本文通过在模拟搜救情景中测试算法,在考虑到自主系统行为的未解释性与人类理解之间的区别的情况下评估解释生成算法,研究人类与机器人间建立互信的过程以及这些算法特性被人类评价的程度。
Feb, 2018
通过简化解决方案与理论上最优解之间的确定性关系,解决了在计算上昂贵的部分可观测马尔可夫决策过程(POMDPs)困难,为自主代理在不完全信息环境下的规划提供了确定性界限。
Oct, 2023
通过观察其余状态以有效学习核心状态之间的状态转移规则,针对部分可观测马尔科夫决策过程 (POMDP) 提出一种面向目标的强化学习方法。 在逐步添加新的核心状态到转换图中的同时,本模型仅包含核心状态,它监督一小部分核心状态以了解动态环境并获得最佳行为策略,这使其具有良好的可解释性。 此外,该方法适用于在线学习,可以抑制内存消耗并提高学习速度。
May, 2023
本文介绍了一些基于在线方法的局部政策计算的 POMDP 方法,并在各种环境下对这些方法进行了评估,结果表明现代的启发式搜索方法能够高效地处理大型 POMDP 领域。
Jan, 2014
本文提出一个结合推断和强化学习的框架,通过深度强化学习对 POMDP 问题进行鲁棒解决。通过 Markov Chain Monte Carlo 抽样来联合推断出所有的转换和观察模型参数,并将参数分布通过域随机化融入到模型不确定性的解决中,解决该方法适用于铁路资产维护规划等实际问题。
Jul, 2023