BriefGPT.xyz
Ask
alpha
关键词
temporal-difference
搜索结果 - 3
ICML
折扣因子作为增强学习中的正则化器
本文研究了强化学习算法中的折扣因子对提高性能的影响,并通过实验证明了折扣因子可以作为正则化项,对可用数据的大小、分布和混合率等性质有明显影响。
PDF
4 years ago
一种贪心方法用于适应时序差分学习的迹参数
本文提出了一种新的目标函数来优化 lambda,使用基于状态而不是时间的线性复杂度的增量式 lambda 适应算法,并在三个不同的环境中进行了实验,这些贡献是针对在现实世界问题中运用时间差异学习方法的具体步骤。
PDF
8 years ago
LSTD ($λ$) 的收敛速率和误差界
本文考虑 LSTD (λ) 算法,推导出了任意 λ 及 β-mixing 条件下该算法收敛速率的高概率估计及误差的高概率界,探究了 λ 值选择对线性空间质量和样本数的影响。
PDF
10 years ago
Prev
Next