BriefGPT.xyz
Ask
alpha
关键词
quantile temporal-difference learning
搜索结果 - 1
ICML
分位数时序差分学习在价值估计中的统计优势
本研究探讨了强化学习中基于时间差分的策略评估问题,并分析了一种分布式强化学习算法 —— 量化时间差分学习 (QTD) 在此任务中的应用。研究得出了令人惊讶的结论,即使从业者对返回分布的平均值以外的部分不感兴趣,QTD(能够学习返回值的完整分
→
PDF
a year ago
Prev
Next