ICMLOct, 2021

离线强化学习算法:在线评估预算的重要性

TL;DR本文研究表明,对于深度离线强化学习算法的可靠比较,在线评估预算的重要性,提出采用 NLP 领域的报告工具(期望验证性能)报告深度离线强化学习算法在不同预算下的表现,并且通过使用该工具,当在有限预算内工作时,行为克隆方法往往比离线强化学习算法更有优势。