Sep, 2022

猜猜我在干什么”:将易读性扩展到序列决策任务

TL;DR研究了不确定条件下顺序决策任务中可读性的概念。提出了一种名为 PoL-MDP 的方法,能够处理不确定性,同时具有计算上的可处理性,在多种模拟场景中证明了其在状态决策方面的优势,同时也表明该方法可以被用于反向强化学习。通过用户研究评估了该计算策略的可读性。