BriefGPT.xyz
Ask
alpha
关键词
value-prediction error
搜索结果 - 1
模拟引理的最优紧密度界限
我们提出了一种关于模型误差的值预测误差的边界,包括常数因子。这是强化学习中的基础结果 “模拟引理” 的直接改进。我们通过谨慎考虑这个数量本身,而不是作为值误差的子组件,推导出一种与转换函数误差相关的次线性边界,并在相关的分层抽象子领域证明了
→
PDF
16 days ago
Prev
Next