off-policy deep reinforcement learning | BriefGPT

关键词off-policy deep reinforcement learning

搜索结果 - 5

处理成本和约束的离策略深度强化学习
混合符号奖励环境中，重新考虑原有策略更新方法的安全性，通过解决数值估计误差的问题和不显式地最大化 Q 值的方法，提出了新的离策略演员 - 评论家方法，以提高深度强化学习算法在连续动作空间中的学习效果。
PDF7 months ago
克服神经价值近似的光谱偏差
本文探讨了如何通过使用复合神经切向核的傅里叶特征网络来克服多层感知器和神经核回归中存在的高频率成分拟合所需的步骤数指数级增加的问题，以提高深度增强学习的效率和稳定性，并取得了令人瞩目的实验结果。
PDF2 years ago
AAAI学习悲观主义以实现鲁棒和高效的离策略强化学习
本文提出一种新的学习策略 —— 广义悲观学习（GPL），其利用可学习的罚值对目标回报进行悲观估计，在双 TD-learning 方法下训练策略评估模型，有效解决了时序差分学习过程中的过度估计偏差和悲观偏差问题，在传统的强化学习算法中取得了最
PDF3 years ago
通过存储嵌入，提高视觉强化学习的计算效率
本论文提出了一种基于 Stored Embeddings for Efficient Reinforcement Learning (SEER) 的改进深度强化学习方法，以减少计算和内存要求，并且在 DeepMind Control 和 A
PDF3 years ago
经验回放中的记忆和遗忘
提出了一种叫做 Remember and Forget Experience Replay (ReF-ER) 的新方法，可以增强基于参数化策略的深度强化学习算法，通过跳过与当前策略不太相似的经验，以及限制回放行为的信任区域内的策略变化，来提
PDF6 years ago