BriefGPT.xyz
Ask
alpha
关键词
off-policy learning algorithms
搜索结果 - 2
ICLR
通过提升实现对抗模仿学习
通过建立加权回放缓冲区的新算法 AILBoost,该文研究了对抗性模仿学习在离策略训练中的有效性,实验证明 AILBoost 相较于 DAC 在控制器状态和像素环境中性能更佳。
PDF
3 months ago
贝尔特反例已解决:附带两个时间尺度算法调试示例
针对 Baird 反例问题,研究解决了 TD 算法在该问题上发散以及收敛速度缓慢的问题,并提出了具有收敛保证和快速收敛率的算法解决了 Baird 反例问题。
PDF
a year ago
Prev
Next