May, 2024

基于部分可观测性的偏好规划的信念状态查询策略

TL;DR利用参数化信念查询(BSQ)偏好在部分可观测环境中表达用户对代理行为的偏好的新框架,在目标导向的部分可观测马尔可夫决策过程(gPOMDPs)的设定中进行介绍。我们首次对这种偏好进行了形式化分析,并证明 BSQ 偏好的期望值虽然不是关于其参数的凸函数,但具有分段常数特性,并产生一个对于有限时间限制而言有限的离散参数搜索空间。这个理论结果导致了新的算法,可以在优化 gPOMDP 代理行为的同时保证用户偏好的一致性。理论分析证明了我们的算法在极限情况下收敛于最优的偏好一致行为。实证结果表明,在部分可观测环境中,BSQ 偏好为基于偏好的规划提供了一种计算上可行的方法。