BriefGPT.xyz
Ask
alpha
关键词
q-value estimation
搜索结果 - 3
AAAI
离线到线上强化学习中 Q 值估计的视角
离线到在线强化学习(O2O RL)旨在通过少量在线样本来改进离线预训练策略的性能。本文从一个新颖的角度系统研究 O2O RL 中仍存在的挑战,并确定性能改进缓慢和在线微调不稳定的原因在于离线预训练中准确性不高的 Q 值估计。为解决这个问题,
→
PDF
7 months ago
离线强化学习中 Q 值离散度的理解、预测和改善
在离线增强学习中,离线 Q 值估计的发散问题一直是一个突出的问题。本研究通过对机制的全面理解和对模型架构的改进,提出了解决发散问题的新途径,其中包括基于离线 RL 的自激励模式和通过 LayerNorm 架构提升性能。
PDF
9 months ago
神经记忆控制加速深度 Q 学习
NEC2DQN 旨在提高深度强化学习中 DQN 等低效算法的学习速度,通过在学习开始时使用高效率算法 NEC,能够比 Double DQN 或 N-step DQN 更快地在 Pong 实验中进行学习。
PDF
7 years ago
Prev
Next