Dec, 2022
在局部观测下,结合信息寻求探索和奖励最大化: 统一的连续状态和行动空间推断
Combining information-seeking exploration and reward maximization:
Unified inference on continuous state and action spaces under partial
observability
TL;DR本研究提出了一种新的统一原理来实现信息寻求和奖励最大化,将主动推理与强化学习结合起来,不仅解决了各自的局限性,同时还具有超越传统方法的探索新颖奖励的性能。