policy update | BriefGPT - AI 论文速递

关键词policy update

搜索结果 - 8

社会水文学的强化学习
通过一个关于土地利用变化下径流减少问题的简单案例研究，我们讨论了强化学习在解决社会水文问题中提供了一种有效且高效的框架。强化学习之所以在这类问题中具有功效，是因为它能够以迭代方式更新策略，而这也是社会水文学的基础，我们关注的是人水互动的共同
PDFa month ago
AAAI离线到线上强化学习中 Q 值估计的视角
离线到在线强化学习（O2O RL）旨在通过少量在线样本来改进离线预训练策略的性能。本文从一个新颖的角度系统研究 O2O RL 中仍存在的挑战，并确定性能改进缓慢和在线微调不稳定的原因在于离线预训练中准确性不高的 Q 值估计。为解决这个问题，
PDF7 months ago
通过撤销映射形式主义进行迁移强化学习
提出了一个名为 TvD 的框架，通过分布匹配实现智能体在交互域之间的知识转移，其基于优化目标推导出了一种新的策略更新机制，该机制可以有效地解决任务差异性的影响。
PDF2 years ago
协作式近端策略优化
本文提出了一种名为 CoPPO 的算法，用于多智能体环境下的多项策略优化，并证明了该算法在优化理论基础上的联合目标后能够实现动态的学分分配，解决了多智能体系统中同时更新智能体策略时高方差的问题，并通过实验证明其在合作矩阵博弈和 StarCr
PDF3 years ago
Muesli: 综合政策优化的改进
该论文提出一种新的政策更新方式 Muesli，它将正则化策略优化与模型学习结合作为辅助损失函数。该方法在 Atari 上取得了与 MuZero 相媲美的性能，而没有使用深度搜索。同时其计算速度与基线模型相当，并在连续控制和 9x9 围棋等领
PDF3 years ago
基于状态对齐的模仿学习
提出一种基于状态对齐的模仿学习方法，旨在训练模仿者尽可能地模仿专家演示中的状态序列，该方法将本地和全局的状态对齐结合到一个强化学习框架中，并通过一个规则化的策略更新目标来实现。该方法在标准模仿学习设置和专家和模仿者具有不同动力学模型的模仿学
PDF5 years ago
NIPS重要性加权演化策略
本研究提出改进新型的进化策略算法 - 重要性加权进化策略（IW-ES），通过重要性采样技术来解决现有进化策略算法数据效率较低的问题，在保持原始方法的可扩展性的同时，可以在每个经验批次上执行多个更新，为高效生成强化学习策略算法提供了新思路。
PDF6 years ago
基于轨迹的无模型策略优化与单调改进
该论文提出一种基于轨迹的无模型策略优化算法，使用局部二次时间相关 q 函数学习从轨迹数据中反向传播而来，计算准确的 KL 约束满足，实验结果表明与线性化系统动态的方法相比，在高度非线性的控制任务中，我们的算法性能有了显著提高且有保证的单调性
PDF8 years ago