关键词policy search algorithms
搜索结果 - 6
- IJCAI通过物理引擎快速模型识别,以进行数据高效策略搜索
本文提出的方法利用物理引擎技术和基于贝叶斯优化的模型参数优化算法,通过模拟实验和样本学习的方式,有效地辨识了机器人的力学参数,提高了现有策略搜索算法的数据效率。
- ICML约束策略优化
提出了一种新的基于 Constrained Policy Optimization (CPO) 算法的强化学习策略搜索方法,可保证在每次迭代中实现约束满足,能够应用于高维控制问题,例如,在机器人运动中,智能体必须满足安全性约束条件。
- 学习重复:深度强化学习中的细粒度动作重复
本文提出了一种新的框架 Fine Grained Action Repetition (FiGAR),该框架使代理能够在与环境交互的每个时间步长上决定动作以及重复该动作的时间尺度,可用于改进任何维护显式策略估计的深度强化学习算法。我们通过在 - NIPSBellman 残差是否为不良代理?
该研究旨在理论上和实证上比较强化学习的两个标准最优化标准,并提出了一种最小化 Bellman 残差的新方法来代替通常的最大化平均值的方法,实验表明直接最大化平均值比 Bellman 残差更好,这表明值基强化学习中通常使用的 Bellman - 批量离策略搜索的同时扰动算法
本篇论文提出了针对离线、批处理强化学习中连续状态和动作空间的新型策略搜索算法,这些算法包括第一和第二阶策略梯度以及 Newton 算法,并且在梯度和代价向量中同时实现了偏差估计。该论文在一个简单的一维连续状态空间问题上证明了算法的实用性。
- 关于某些策略搜索动态规划算法的性能界限
本篇研究考虑了马尔科夫决策过程 (Markov Decision Processes) 的无限时间折扣优化控制问题,并提供了 Policy Search 算法以及 Direct Policy Iteration 和 Conservative