关键词model-free reinforcement learning
搜索结果 - 42
- ICML协处理器演员评论家:一种面向模型的自适应脑刺激的强化学习方法
通过模型,我们提出了一种新颖的基于模型的强化学习方法,即 Coprocessor 角色扮演者批评家,用于学习神经协处理器策略以进行脑刺激,克服了传统的无模型强化学习方法在样本效率和任务成功方面的局限性,并在一个神经学现实模型中胜过基线的基于 - 接触丰富可微分模拟中的政策学习自适应视野演员评论家
探讨了模型自由强化学习方法的优化问题,引入了一种基于模型的算法 (AHAC),通过适应模型的 horizon 避免 stiff dynamics,实验结果表明 AHAC 在特定任务中表现优于传统方法,具有更好的时间效率。
- 硬阈值遇上进化策略在强化学习中
本文研究了进化策略在处理现实世界问题中普遍存在的无关特征的限制,并提出了一种集成硬阈值化和自然进化策略的新方法 NESHT,通过严格的分析和实证测试,证明了 NESHT 在嘈杂的 Mujoco 和 Atari 任务等复杂决策问题中的潜力。
- 基于强化学习的能量套利策略的控制策略纠正框架
通过模型无关的强化学习方法,在失衡结算机制中提出了一种新的用于电池的安全能源套利策略的控制框架。
- 强化学习的双重视角对政策约束的施加
通过使用一种通用的原始对偶框架,将经典优化和控制理论与基于值和演员 - 评论家强化学习方法结合,本研究旨在统一和整合现有技术,并为学习的策略施加附加约束。构建出的 $ exttt {DualCRL}$ 算法支持各种策略约束的组合,在训练过程 - 关于 Lipschitz 连续控制问题的稳定性及其在强化学习中的应用
我们研究了模型无关的强化学习环境下 Hamilton-Jacobi-Bellman 方程的稳定性属性,特别是对于 Lipschitz 连续最优控制问题。通过在动力学和奖励函数中引入结构假设,我们进一步研究了值函数的收敛速度。此外,我们引入了 - 飞行中应对杂乱环境的学习敏捷性适应
通过层次学习和规划框架,利用试错和模型生成轨迹的方法,本研究通过在线无模型强化学习和预训练微调奖励机制来赋予飞行器在未知和部分可观察环境中适应敏捷性的能力,并在仿真和实际硬件验证中证明了该方法比常数敏捷度基准和替代方法在飞行效率和安全性方面 - MFRL-BI:一种基于贝叶斯推断的无模型强化学习过程控制方案设计
利用模型无关的强化学习方法,通过实时数据进行实验和优化控制,提出了一种新的 MFRL 控制方案,通过贝叶斯推断更新干扰分布,来降低制造过程中的大幅波动,同时在未知的非线性化学机械化学抛光(CMP)过程中表现出良好的性能,并在干扰为加性的情况 - 基于平均奖励的马尔可夫决策过程更为精确的无模型强化学习
我们提出了多种经过证明有效的无模型强化学习算法,包括基于参考优势分解的在线无模型强化学习算法以及适用于模拟器环境的无模型强化学习算法,在平均报酬马尔科夫决策过程中实现更好的折扣估计和置信区间的高效构建。
- ICML使用翻硬币的方法估计强化学习中的假计数以进行探索
我们在高维状态空间中提出了一种新的基于计数的探索方法,通过平均来自 Rademacher 分布(或硬币翻转)的样本,得到计数,并使用一个简单的监督学习目标进行优化,可以获得状态的访问计数。此方法在 9 个具有挑战性的探索任务中表现优异,并优 - 在线非随机模型无关强化学习
该研究探讨了针对动态或敌对环境的强化学习算法,并引入基于干扰信号的新型政策以提高适应性和鲁棒性,并在标准 RL 基准测试中进行了评估并证明了改进的鲁棒性。
- 利用跳跃模型进行机器人领域的规划和快速学习
本文研究了从未标记的经验中学习多步动态预测模型(跳跃模型)及其在后续任务中快速推理(高级)计划的实用性。通过离线学习技能嵌入空间,我们提出了一种学习跳跃模型的方法,不需要标签或奖励注释。通过在 RGB 堆栈环境中进行一系列实验,展示了通过学 - 深度无模型强化学习中的感知学习
本文提出了一个用于强化学习(RL)的新型无模型代理人,从视觉关注和主动感知的概念中受到启发,将人类注意力机制应用于代理人,创建了一种硬式关注机制,结合了 RAM 模型和 PPO 算法,在两个 Atari 游戏中比较其性能,结果表明我们的模型 - 时间扩展继承表示
本文介绍一种称为 t-SR 的时间上扩展的后继表示法,它通过构造基本动作的继承表示来捕获时间上扩展的操作的预期状态转移动态,从而减少了控制所需的决策数量,同时学习到时间上扩展的动作序列的时域,优于价值基、非模型强化学习方法。
- 快速学习四足动物在复杂地形上的敏捷奔跑
使用无模型强化学习在仿真环境下训练的,基于镜像世界神经网络的四足机器人运动控制器具有极强的抗扰动性能和泛化能力,能够协调机器人的动作频率和运动速度,实现更加自然和合理的运动模式。
- 安全状态增强对安全探索的影响
在模型无关强化学习中,通过引入安全状态来解决安全成本稀疏和未知的问题,其价值也作为违约距离,初始值反映了可用的安全预算。该方法有助于制定安全预算调度策略,称为 Simmer,可提高两种安全强化学习问题的安全性,提高平均约束下安全强化学习的性 - 具有生成模型的 KL 熵正则化强化学习是极小极大值最优的
本文研究了使用生成模型的无模型强化学习的样本复杂性,重点分析了使用 Kullback-Leibler 散度和熵正则化在值和策略更新中的 Geist 等人(2019)和 Vieillard 等人的 Mirror descent value i - 通过系统识别低维线性模型,构建基于模型的安全和基于模型无关的强化学习的桥梁
本文提出了一种新方法,通过显式地找到受 RL 策略控制的系统的低维模型,并在简单模型上应用稳定性和安全保证,将基于模型的安全性与基于模型的无模型强化学习相结合。使用复杂的二足机器人 Cassie 和其基于强化学习的行走控制器作为示例,本文表 - 交替式好状态马尔可夫决策自动机
本研究发现,当使用好的 MDP Buchi 自动机来代替确定性 Rabin 自动机时,可以更好地将 omega-regular 目标使用于模型无关的强化学习中,并且使用 Streett 自动机所得到的交替好的 MDP 自动机,可以比最小的非 - 基于均场博弈的可伸缩深度强化学习算法
本文提出了两种方法解决深度强化学习算法在非线性函数逼近下,无法很好地处理 mean field games 的情况。第一种方法是通过神经网络将历史数据蒸馏为混合策略,应用于 Fictitious Play 算法。第二种方法是一种基于正则化的