policy parameters | BriefGPT

关键词policy parameters

搜索结果 - 6

约束生成策略优化（CGPO）：混合离散连续 MDPs 的策略优化的非线性规划
提出了 Constraint-Generation Policy Optimization（CGPO）来优化混合离散 - 连续马氏决策过程（DC-MDPs）中紧凑且可解释的策略类的策略参数。CGPO 能够在许多具有表达性非线性动力学的 DC
PDF6 months ago
隐式多任务强化学习问题的政策调整方法
在动态运动生成任务中，微小的策略参数变化可能导致完全不同的结果。本研究提出了一种多任务强化学习算法，用于适应单一运动类别中目标或环境的隐式变化，通过不同的奖励函数或物理环境参数。使用单脚机器人模型对球的头球任务进行了评估，结果表明该方法能够
PDF10 months ago
使用潜在扩散模型生成行为多样的策略
本研究提出使用扩散模型来压缩行为多样性强化学习（QD-RL）中成千上万个策略，将存档压缩到单个生成模型中，达到 13 倍的压缩比例，同时恢复 98% 的原始奖励和 89% 的覆盖率。
PDFa year ago
策略梯度算法通过延续隐式优化
本研究提供了关于策略梯度算法的新的理论解释和证明。同时，文章还提出，策略梯度算法中的探索是计算当前政策回报的连续，而策略的方差应该是适应历史的函数，以避免局部极值，而不是为了最大化政策的回报。
PDFa year ago
概率安全策略转移
本文提出一个安全的学习方法，即在保证机器人不会过度受损的前提下，通过优化问题的方法来达到最大化预期回报的目的，并采用一种新的方法来判断修改扭矩限制或更新策略参数时机器人可能受到的安全影响，以确保机器人在学习过程中该约束得到维持，实验证明了该
PDF7 years ago
使用可逆跳转 MCMC 求解马尔可夫决策过程的新推理策略
本文提出了利用 Markov Chain Monte Carlo (MCMC) 方法解决参数控制问题的技术，并进行了多项改进，以在高维空间下更加实用。我们首先介绍了一种新的目标分布，能够从采样轨迹中合并更多的回报信息。我们还展示了如何有效地
PDF12 years ago