Oct, 2022

互信息正则化的离线强化学习

TL;DR本文提出一种基于互信息的新框架 (MISA),用于解决离线强化学习中的分布偏移问题,通过直接限制策略改进方向来有效地利用行动和状态之间的相互依赖关系,同时在策略评估和改进中增加相互信息的正则化。