continuous control benchmarks | BriefGPT

关键词continuous control benchmarks

搜索结果 - 7

增长型 Q 网络：用自适应控制分辨率解决连续控制任务
近期的强化学习方法在解决连续控制基准问题时表现出了令人惊讶的强大能力，通过粗糙的动作空间离散化实现了有利的探索特性，而在没有动作惩罚的情况下，最终性能并不明显受到影响。本文旨在通过从粗控制到细控制的分辨率增长，结合解耦的 Q 学习最新成果，
PDF3 months ago
PACER：基于全推进式的分布式强化学习算法
本文提出了第一个完全基于推进算子的分布式增强学习算法 PACER，使用了基于策略梯度方法的随机效用价值和基于最大均值差异的鼓励程序，对各种连续控制基准进行了实验评估，结果表明我们的算法优于现有的算法。
PDFa year ago
MyoSuite -- 一种用于肌肉骨骼运动控制的接触模拟套件
MyoSuite 是一套体质上准确的生物力学模型，能够支持复杂的接触丰富的现实世界任务，包括肌腱移植、外骨骼辅助和肌肉收缩动力学等生理变化，从而展现出现实中的非稳态条件。
PDF2 years ago
基于模型的对抗元强化学习
本文提出了一种基于模型的对抗元强化学习算法 (Model-based Adversarial Meta-Reinforcement Learning)，通过最小化所有任务中最劣情况的次优差异 (sub-optimality gap)，以及使
PDF4 years ago
DSAC: 基于分布式的软演员 - 评论家算法用于风险敏感强化学习
DSAC 是一种新的强化学习算法，它通过利用积累奖励的分布信息来获得更好的性能。通过将 SAC 与基本分布式目标观点无缝集成， DSAC 考虑了行动和回报中的随机性，并在几个连续控制基准测试中超越了现有技术基线。除此之外，我们还探讨了三个具
PDF4 years ago
NIPS演化引导的强化学习策略梯度
本文介绍了一种基于人工进化算法和深度强化学习相结合的进化增强学习算法，该算法克服了传统深度强化学习算法中时序资格分配、探索效率和收敛性极度敏感的问题，使用基于种群的进化算法来训练深度强化学习代理人，实验结果表明，该方法在多种连续控制基准测试
PDF6 years ago
ICML用于学习高斯策略的平滑动作价值函数
通过对期望 Q 值进行高斯平滑处理得到的行动价值概念可以依据 Bellman 方程进行学习，并且从平滑后的 Q 值函数的梯度和 Hessian 矩阵中可以恢复期望奖励关于参数化高斯策略均值和协方差的梯度。基于这些关系，通过直接从学习的平滑
PDF6 years ago