policy improvement | BriefGPT

关键词policy improvement

搜索结果 - 44

相对熵正则化策略迭代
我们提出了一种基于离线策略的 Actor-Critic 算法，结合了随机搜索梯度 - free 优化和学习的动作价值函数，通过评估参数化动作 - 价值函数、估计局部非参数化策略和拟合参数化策略的三个步骤，在 31 个连续控制任务中进行对比与
PDF6 years ago
ICML基于程序综合的混合优化强化学习方法
本论文提出一种 MORL 的框架，通过程序合成技术实现对基于神经网络的黑箱模型深度强化学习策略的改进，得到符号表示形式，使其可以被手动或自动调试，经过行为克隆和梯度下降法的改进，不断迭代直到满足所需约束，在 CartPole 问题上的实例研
PDF6 years ago
AAAI快速和安全策略改进的多样化探索
本文提出一种新的探索策略 —— 多样性探索（DE），通过学习和部署一组多样性的安全策略来探索环境，从而实现在线强化学习领域中快速并安全地改进策略，通过实证研究表明该方法可以同时实现快速策略改进和安全在线性能。
PDF6 years ago
基于轨迹的无模型策略优化与单调改进
该论文提出一种基于轨迹的无模型策略优化算法，使用局部二次时间相关 q 函数学习从轨迹数据中反向传播而来，计算准确的 KL 约束满足，实验结果表明与线性化系统动态的方法相比，在高度非线性的控制任务中，我们的算法性能有了显著提高且有保证的单调性
PDF8 years ago