BriefGPT.xyz
Ask
alpha
关键词
active offline policy selection
搜索结果 - 1
主动离线策略选择
本文提出了一种新颖的顺序决策方法 —— 主动离线策略选择,该方法结合了在线交互和记录数据,利用基于贝叶斯优化和策略相似性的内核函数,通过多个基准测试,包括实际机器人应用,证明该方法改进了最新的离线策略评估估计和纯在线策略评估,解决了缺乏在线
→
PDF
3 years ago
Prev
Next