mujoco | BriefGPT - AI 论文速递

关键词mujoco

搜索结果 - 8

风险厌恶强化学习中的均值半方差策略优化
本文旨在优化均值 - semivariance（MSV）目标，提出了两种基于策略梯度理论和信任域方法的算法，通过在 MuJoCo 上的实验验证其有效性。
PDF2 years ago
ICLR强化学习中的在线策略模型误差
本文提出了一种结合模型和真实数据的方法来弥补模型误差和偏差所带来的不足，通过将真实数据作为时间相关的学习模型的修正项以维持数据生成能力并减少预测误差，从而改进了现有的基于模型的方法。在 MuJoCo 和 PyBullet 基准测试上的实验结
PDF3 years ago
ICLRA Simple Approach for Exploration in Procedurally-Generated Environments: Episode Ranking
RAPID 是为了针对面向过程的生成环境重复性不高的情况，适用于强化学习的全集探索评估方法。我们的实验显示，RAPID 在提高样本效率和最终性能方面，显著优于当前最先进的基于内部奖励的策略。
PDF3 years ago
KDDSinkhorn 距离的模仿学习
本文提出了一种将模仿学习看作是最小化占用量度量之间的 Sinkhorn 距离的可实现解决方案，并通过在对抗性学习特征空间中定义余弦距离成本，将最优运输度量的有价值特性与比较非重叠分布相结合。
PDF4 years ago
dm_control: 连续控制的软件与任务
dm_control 是用于建模和模拟强化学习的一套 Python 库，包括 MuJoCo 外壳、PyMJCF 和 Composer 库等，以及一套标准化任务 Control Suite 和高级抽象的运动框架。
PDF4 years ago
序列建模：针对情节强化学习的时间性信用分配
本文介绍了一种新的时间信用分配算法，使用深度神经网络将时间步骤分解为每个步骤，并采用 Transformer 语言模型学习轨迹状态的重要性和依赖性，可大幅提高回路强化学习的学习效率。作者在一组具有连续运动控制任务的 MuJoCo 上进行了广
PDF5 years ago
IJCAI借助自我感知从视频中进行模仿学习
该研究提出了一种基于内部状态及视觉观测的模仿学习算法，实验结果表明其在多个 MuJoCo 领域的表现优于其他观测模仿学习算法。
PDF5 years ago
演化策略作为可扩展替代强化学习的方案
使用黑盒优化算法 —— 进化策略，替代流行的基于 MDP 的 RL 技术，通过 MuJoCo 和 Atari 上的实验表明，ES 是一种可行的解决策略，随着可用 CPU 数量的增加而呈线性规模，同时 ES 具有不变性、容差性以及无需强化学习
PDF7 years ago