Jan, 2022

自适应信息信念空间规划

TL;DR该研究旨在使用奖励函数来有效地做出明智的决策,通过提出抽象观测模型来降低计算成本并推导出期望信息论奖励函数的界限以及价值函数的界限,同时,提出了一种用于改善聚合方法的方法,实现了相同动作选择的计算时间减少。