BriefGPT.xyz
Ask
alpha
关键词
performance lower bound
搜索结果 - 1
AAAI
基于模型的离线强化学习中的本地错误建模
我们提出了一个基于模型的离线强化学习策略性能下限,明确捕捉动力学模型误差和分布不匹配,并提出一种用于最优离线策略选择的实证算法。我们通过建立对价值函数的悲观近似来证明了一种新的安全策略改进定理。我们的关键见解是同时考虑动力学模型和策略的选择
→
PDF
a year ago
Prev
Next