Oct, 2022

限数据的离线强化学习数据效率管道

TL;DR提出一种用于离线强化学习中算法和超参数自动选择的元算法,通过使用多个数据拆分来产生更可靠的算法 - 超参数选择,并在医疗保健、教育和机器人技术等各种模拟领域中比较和选择最佳策略,并输出离线策略学习算法的更高性能的策略。