BriefGPT.xyz
Ask
alpha
关键词
least squares method
搜索结果 - 2
AAAI
对称 Q 学习:减小在线强化学习中贝尔曼误差的偏斜度
深度强化学习中,通过使用对称 Q 学习方法,将来自零均值分布的合成噪声添加到目标值中,从而生成高斯误差分布,以改善价值函数训练中的偏斜错误分布问题,并提高现有的强化学习方法在连续控制任务中的样本效率。
PDF
4 months ago
AAAI
加速梯度时差学习
本文提出了一种新的 TD 方法家族 ATD 方法,用于在保证数据效率、减少参数灵敏度和渐进无偏的情况下,大幅减少计算和存储的量,其收敛性得到了期望的证明,并在多个基准域和大型工业能源分配域上进行了实验。
PDF
8 years ago
Prev
Next