Oct, 2022

半监督离线强化学习与无动作轨迹

TL;DR通过开发新的算法流程,利用多种数据来源进行线下强化学习,仅使用 10%的数据可以达到与完全有标签的数据集相似的性能,同时进行大规模控制实验,以确定半监督学习应用于 RL 的最佳实践。