关键词policy optimization algorithm
搜索结果 - 8
- e-COP:策略的时序受限优化
本文介绍了 $ exttt {e-COP}$ 算法,这是第一个适用于有约束的强化学习 (RL) 的离散 (有限时段) 设置的策略优化算法。我们通过在离散设置下建立策略差异引理来解决这个问题,提供算法的理论基础。通过对 Safety Gym - 多轮强化学习从人类偏好反馈中学习
本研究通过发展新的强化学习方法,解决了基于喜好反馈的多轮对话中规划和多轮互动问题,通过实验证明该算法在教育对话环境中超越了基线模型,同时在含有明确奖励的环境中也能达到基于奖励强化学习模型的性能
- 线性 MDPs 中具有累积赌臂反馈的近最优遗憾
该研究通过使用集成的 Q 函数和新的随机化技术构建基于值的乐观算法,并使用新的对冲方案构建政策优化算法,对具有聚合强化学习反馈的线性函数逼近进行了扩展研究。
- 有限探索的双层离线策略优化
我们研究线下强化学习,旨在根据固定、预先收集的数据集学习出良好的策略。我们提出了一种双层结构的策略优化算法,通过模拟策略(上层)和值函数(下层)之间的层次交互来解决此任务中的分布偏移问题,尤其是在函数逼近的情况下。
- 平均受限策略优化
本论文提出针对平均准则的受约束 MDPs 的一种新的(可能是第一种)策略优化算法 —— 平均约束策略优化(ACPO)算法,通过对平均 MDP 的基本灵敏度理论进行开发并在算法的设计中使用相应的界限,提供其性能的理论保证,并通过在各种具有挑战 - ICML使用不匹配约束策略加速安全强化学习
提出一种迭代策略优化算法以安全地学习来自基准策略的强化学习问题,其中基准策略可以来自示范数据或教师代理,并且需要满足一组由安全性、公平性或其他特定应用需求编码的约束条件。在控制任务上的实验中,该算法始终优于多个最先进的基线算法,并在平均回报 - BaRC:机器人强化学习的反向可达性课程
借助物理先验形式的近似系统动力学模型,我们设计了一个课程方案来优化无模型策略优化算法。我们的课程策略在任何模型无关 RL 算法上都是通用的,并且其课程战略在物理上直观、易于调节,并允许加速培训,同时不影响模型无关 RL 算法的性能、灵活性和 - IJCAI针对智能代理人自然语言交流的定期策略优化
提出一个可以通过联合推理视觉观察和语言输入来学习自然语言指令的新型策略优化算法,该训练范式提供了有效的探索和更好的泛化能力,相比现有的集成模型,我们提出的最佳模型在块世界环境中的执行错误率可以大幅降低超过 50%,同时还包括系统性的研究以展