Jun, 2021

主动离线策略选择

TL;DR本文提出了一种新颖的顺序决策方法 —— 主动离线策略选择,该方法结合了在线交互和记录数据,利用基于贝叶斯优化和策略相似性的内核函数,通过多个基准测试,包括实际机器人应用,证明该方法改进了最新的离线策略评估估计和纯在线策略评估,解决了缺乏在线交互数据的策略选择问题。