利用 POMDP 树搜索进行奖励模型调和的解释

May, 2023

利用 POMDP 树搜索进行奖励模型调和的解释

Explanation through Reward Model Reconciliation using POMDP Tree Search

Benjamin D. Kraske, Anshu Saksena, Anna L. Buczak, Zachary N. Sunberg

TL;DR为了提高人们对人工智能系统的信任，本研究致力于调节在线部分可观察马尔可夫决策规划算法的奖励模型与人类用户所假设的奖励模型之间的差异，并通过分析算法与用户之间的差异以估计用户的目标。

Abstract

As artificial intelligence (AI) algorithms are increasingly used in mission-critical applications, promoting user-trust of these systems will be essential to their success. Ensuring users understand the models over which algorithms reason promotes →

artificial intelligence user trust reward model markov decision algorithm

发现论文，激发创造

利用反事实路径对 POMDP 策略进行对比解释

通过使用用户提供的反事实来生成 POMDP 策略的对比解释，探索可解释人工智能的方法以提高系统透明度并建立信任，本文以 Search and Rescue (SAR) 为例进行了分析和讨论相关挑战。

Mar, 2024

POMDP 中的 Task-Guided IRL

本文提出了一种新算法，用于部分可观测的马尔可夫决策过程中的反向强化学习，可增加数据效率并减少信息不对称，通过融合时间逻辑表达式作为先验信息，使用因果熵而不是熵，防止算法复杂度的通用来源，有效地解决了非凸问题，并在高级 Unity 仿真器中进行了实验，结果表明该算法具有较高的性能。

Dec, 2022

POMDPs 和可解释的代理的端到端策略梯度方法

一个 RL 算法，可以通过端到端训练来估算隐藏状态，并将估算可视化为状态转换图。实验结果表明，该算法可以解决简单的 POMDP 问题，并使代理行为可解释给人类。

Apr, 2023

关于模型调节：当机器人不知道人类的模型时如何调节？

本文提出了一种基于对话的方法来计算模型协调问题的解决方案，该方法假定机器人不知道人类模型，机器人和人类共享计划域的谓词集，并且交流的内容是关于动作描述和流形值的交换。通过对话，机器人向人类发送潜在的解释，被称为提案，人类回复其提案的评估，被称为响应。

Aug, 2022

计划解释作为模型调和的实证研究

本文通过在模拟搜救情景中测试算法，在考虑到自主系统行为的未解释性与人类理解之间的区别的情况下评估解释生成算法，研究人类与机器人间建立互信的过程以及这些算法特性被人类评价的程度。

Feb, 2018

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023

基于目标的冗余观测环境推断

通过观察其余状态以有效学习核心状态之间的状态转移规则，针对部分可观测马尔科夫决策过程 (POMDP) 提出一种面向目标的强化学习方法。在逐步添加新的核心状态到转换图中的同时，本模型仅包含核心状态，它监督一小部分核心状态以了解动态环境并获得最佳行为策略，这使其具有良好的可解释性。此外，该方法适用于在线学习，可以抑制内存消耗并提高学习速度。

May, 2023

POMDP 的在线规划算法

本文介绍了一些基于在线方法的局部政策计算的 POMDP 方法，并在各种环境下对这些方法进行了评估，结果表明现代的启发式搜索方法能够高效地处理大型 POMDP 领域。

Jan, 2014

基于深度强化学习的 POMDP 推断和鲁棒解决方案：铁路最优维护应用

本文提出一个结合推断和强化学习的框架，通过深度强化学习对 POMDP 问题进行鲁棒解决。通过 Markov Chain Monte Carlo 抽样来联合推断出所有的转换和观察模型参数，并将参数分布通过域随机化融入到模型不确定性的解决中，解决该方法适用于铁路资产维护规划等实际问题。

Jul, 2023

高水平机器人解释的奖励分解探究

本文提出利用抽象动作和奖励分解技术的可解释学习框架，使得机器人动作的解释更易于人类理解，并通过两个场景的定量和定性分析，展示了该框架的有效性。

Apr, 2023