关键词off-policy data
搜索结果 - 9
- 目标网络和过参数化稳定函数逼近下的离线策略引导PDFa month ago
- 高速公路增强学习PDFa month ago
- ICLR技能还是运气?通过优势函数进行回报分解PDF5 months ago
- 蒸馏策略优化PDFa year ago
- 通过无关行为的发散正则化来实现稳定的政策优化PDF4 years ago
- 统计高效的离线策略梯度PDF4 years ago
- 优势加权回归:简单且可扩展的离线策略强化学习PDF5 years ago
- 对话中隐含人类偏好的大规模脱靶批次深度强化学习PDF5 years ago
- ICML基于轨迹的离线深度强化学习PDF5 years ago
Prev
Next