BriefGPT.xyz
Ask
alpha
关键词
safe de-rl
搜索结果 - 1
ICLR
面向高效部署的强化学习:下界和最优性
本篇论文基于 “约束优化” 的思想,提出了一种针对 RL 的”deployment efficiency“问题的理论表述,并使用有限时间线性 MDP 作为具体结构模型,揭示了在获取最佳策略的同时实现最小 “deployment comple
→
PDF
2 years ago
Prev
Next