Jul, 2024

因果双线性表示:面向通用的离线模型化强化学习

TL;DR通过捕获因果表达来减少分布偏移和减轻目标不匹配问题的影响,本研究介绍了BECAUSE算法,用于离线模型驱动强化学习的主要误差源的识别,并在18个任务上的全面评价证明了其优越性能,同时提供了BECAUSE的理论分析,证明了其错误边界和样本效率。