May, 2023
基于目标的冗余观测环境推断
Goal-oriented inference of environment from redundant observations
TL;DR通过观察其余状态以有效学习核心状态之间的状态转移规则,针对部分可观测马尔科夫决策过程(POMDP)提出一种面向目标的强化学习方法。 在逐步添加新的核心状态到转换图中的同时,本模型仅包含核心状态,它监督一小部分核心状态以了解动态环境并获得最佳行为策略,这使其具有良好的可解释性。 此外,该方法适用于在线学习,可以抑制内存消耗并提高学习速度。