May, 2023

利用 POMDP 树搜索进行奖励模型调和的解释

TL;DR为了提高人们对人工智能系统的信任,本研究致力于调节在线部分可观察马尔可夫决策规划算法的奖励模型与人类用户所假设的奖励模型之间的差异,并通过分析算法与用户之间的差异以估计用户的目标。