on-policy algorithms | BriefGPT

关键词on-policy algorithms

搜索结果 - 5

重访可回放体验条件
经验重播 (ER) 在深度强化学习中被认为只适用于离策略算法，然而也有一些案例表明 ER 已被应用于策略算法，表明离策略特性可能是应用 ER 的一个充分条件。本文重新考虑了更严格的 “经验重播条件”(ERC)，并提出了修改现有算法以满足 E
PDF5 months ago
ReLU 拯救：通过正 Advantage 改进你的 On-Policy Actor-Critic 模型
本文介绍了一种用于加强 on-policy 进行深度强化学习（DRL）算法的有效性的新方法，通过在价值函数估计中加入了保守性指标，同时使用 Thompson sampling 来实现谨慎探索，改进了现有算法，从而在多个基准中进行了严格的实证
PDFa year ago
基于并行引导策略的深度强化学习在连续流控制应用中的研究
本论文介绍了一种基于深度强化学习的数值流控制方法，提出了一种在保持更新策略性的同时，在分布式环境中检索部分轨迹缓冲区来增强控制模型的并行模式。
PDFa year ago
具有理论支持的样本重用的广义政策改进算法
该研究提出了一类广义政策提升算法，将在线算法和离线算法相结合，在保证策略改进的同时，实现了高效数据复用，为深度强化学习的实际应用提供了可行性。
PDF2 years ago
MMRL-Scope：用于深度强化学习工作负载的跨栈性能分析
通过 RL-Scope 工具，我们发现深度强化学习训练中存在基本结构上的差异，相对于监督学习而言，其不易受到限制于 GPU；我们还观察到不同 ML 后端之间的运行时差异；同时，我们关注了 RL 算法和模拟器的性能比较，表明 on-polic
PDF3 years ago