BriefGPT.xyz
大模型
Ask
alpha
关键词
offline rl teacher-student framework
搜索结果 - 1
使用未标记数据增强离线强化学习
该研究提出了一种解决离线强化学习中的 OOD 问题的新方法,通过引入离线强化学习师生框架和策略相似度度量,使得学生策略不仅可以从离线数据集中获取见解,还可以从教师策略传递的知识中获得额外的信息,从而有效解决 OOD 问题。
PDF
21 days ago
Prev
Next