Feb, 2024

未来预测能成为部分可观察环境中良好历史表达的有力证据

TL;DR在部分可观察环境中,学习历史表征是强化学习的核心挑战之一。本文通过未来预测的方式探究了历史表征学习的有效性,并证明了强化学习的性能与未来观察的预测准确性密切相关。同时,该方法可以阻止高方差嘈杂信号对表征学习的影响,显著改善整体端到端方法。通过在需要处理长时间历史的三类基准测试中验证了我们的观点。