Jun, 2024

使用未标记数据增强离线强化学习

TL;DR该研究提出了一种解决离线强化学习中的 OOD 问题的新方法,通过引入离线强化学习师生框架和策略相似度度量,使得学生策略不仅可以从离线数据集中获取见解,还可以从教师策略传递的知识中获得额外的信息,从而有效解决 OOD 问题。