BriefGPT.xyz
Ask
alpha
关键词
non-parametric distributional td algorithm
搜索结果 - 1
分布式时间差分的统计效率
本文研究分布增强学习中的分布策略评估问题,并提出了非参数分布时序差分算法 (NTD) 来分析其有限样本性能,通过理论分析得出了 NTD 算法的迭代次数和估计误差之间的关系,同时也证明了 Categorical Temporal Differ
→
PDF
4 months ago
Prev
Next