Jun, 2021

哪些互信息表示学习目标足以支持控制?

TL;DR本文研究了互信息最大化在强化学习中学习数据表示的应用,发现在理论上两种常见的互信息目标不足以提供充分的状态表示来学习最优策略, 并在模拟游戏环境中通过实证实验验证了这一结果。