- ICLR基于树搜索的随机执行延迟下的策略优化
该研究介绍了随机延迟执行马尔可夫决策过程的新形式,通过在马尔可夫决策类中进行策略搜索,提高了性能,并使用 DEZ 算法优化了马尔可夫决策过程的采样效率。
- 学习非刚性抓姿注册的通用工具使用
通过我们提出的一种新方法,仅使用单个演示,我们实现了工具使用行为的强化学习,通过给予初值设定和形状奖励信号的引导来解决多指机械手抓取配置的推广问题,并实现复杂的工具使用任务并在测试时推广到未见过的工具。
- 好奇心创造政策搜索中的多样性
本文介绍一种利用内在动机机制的进化策略搜索方法 Curiosity-ES,以提高基于奖励的过渡的多样性和产生多种满足奖励的策略。
- ICML随机动作 vs 随机策略:基于模型的直接策略搜索的引导
本文研究了初始数据收集方法对动态模型学习的影响,并比较了两个文献中使用的初始化方法,结果表明任务依赖因素可能对每种方法都有害,建议探索混合方法。
- 分布式多智能体协作的对手建模层次强化学习
本文介绍了一种基于深度强化学习的多智能体协作方法,通过分布式学习实现了高效的策略搜索,并在合作变道场景中进行了仿真和实际案例验证。
- MM随机领域贝叶斯策略搜索
该研究将随机领域的政策搜索视为贝叶斯推断问题,并提供了一种将此类问题编码为嵌套概率程序的方案。研究表明,即使使用更简单、更普遍的推断算法,仍然可以学习到质量相似的策略。
- ICLR强化学习中的种群指导并行策略搜索
提出了一种新的基于群体引导的并行学习方法,通过在共享经验回放缓冲区中搜索良好的策略,结合最佳策略信息,软融合构建损失函数,以实现稀疏奖励环境下提升最佳期望累计回报的目的,其中 TD3 算法是工作算法之一。
- 奖励条件下的策略
本篇论文旨在探讨利用非专家轨迹收集数据进行监督学习以实现行为策略的泛化,探讨了基于此原理进行的策略搜索的方法,并在标准基准测试中与多种强化学习方法进行了比较。
- Actor-Critic 方法在强化学习中的样本复杂度问题与函数近似
本研究提出了一种新的 Actor-Critic 算法变体,使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差,不论策略评估技术的选择,我们都能提供 Actor-Critic 算法的收敛速度,特别是当值函 - 如此可能而不可能:反事实指导的策略搜索
利用结构因果模型对离线策略学习算法进行对实验数据的反事实评估,并通过模型预测提高模型预测的偏差。
- ICLRCEM-RL: 将进化和梯度方法结合应用于策略搜索
本文提出了一种新的方法 CEM-RL,将深度神经进化算法和深度强化学习算法相结合,选取 Twin Delayed Deep Deterministic policy gradient 和交叉熵方法,并在深度 RL 的一组基准测试中进行评估, - 学习运动规划的隐式采样分布
本论文提出了一种基于政策搜索的方法,通过利用类似环境中过去搜索的信息生成更好的分布来适应不同环境。该方法可与各种基于采样的计划程序结合使用,以提高性能,验证结果表明该方法在包括 7 自由度机械臂在内的多项任务中取得了显著改进,尤其在碰撞检查 - 安全强化学习中的加速原始 - 对偶策略优化
本文提出了一种用于受限 Markov 决策过程 CMDPs 的策略搜索方法 APDO,并在模拟机器人运动任务上实验,结果表明 APDO 比 CMDPs 的现有方法具有更好的采样效率和更快的收敛速度。
- 一种基于策略搜索的时间逻辑指定强化学习任务方法
本文提出了一种基于时间逻辑规范的强化学习策略搜索方法,通过将时间逻辑公式转化为实值函数,来指导策略搜索过程,从而避免手动调整奖励函数的繁琐操作。
- IJCAI用于最优停止域的高效策略搜索
本文研究了同时学习和规划的最优停止问题,提出了一种名为 GFSE 的简单灵活的无模型策略搜索方法,通过利用问题结构重复利用数据来提高采样效率,文中还对该方法在三个不同领域的表现与基于模型和无模型的现有方法进行了比较。
- 路径积分导向的策略搜索
本文提出了一种通过策略搜索学习复杂的反馈控制策略的方法,该策略可将高维度感知输入映射到电机扭矩以执行具有不连续性接触动力学的操纵任务,该方法在使用先前的技术基础上进行了改进,使用了基于 PI2 的无模型本地优化器和使用 on-policy - PLATO: 使用自适应轨迹优化的策略学习
PLATO 算法通过模型预测控制生成监督信号训练控制策略,以逐步匹配学到的策略,并保证其安全性,同时维持模型预测控制的成本作为约束,使最终学到的策略在长时间任务中表现良好。实验结果表明,PLATO 算法相较于先前方法,学习速度更快,在训练过 - 深度视觉动作策略的端到端训练
该研究旨在回答:联合端到端训练感知和控制系统是否比单独训练每个组件提供更好的性能?通过使用卷积神经网络表示,并在一系列需要视觉和控制之间紧密协作的真实世界操纵任务上进行评估。
- 使用引导式策略搜索学习接触丰富型操作技能
本文介绍了一种用于学习具有高度通用策略表示的动态操作行为的新方法,该方法可以扩展最近开发的策略搜索方法,并使用迭代重新拟合的时间变化线性模型来学习所需运动技能的一组轨迹,然后将这些轨迹统一到一个单一的控制策略中。
- 在线随机优化在相关汇报反馈下的应用
本文介绍了一种高置信度树(HCT)算法,用于解决局部平滑函数下的在线随机优化问题,具有重要的实际应用价值,能够应用于强化学习的策略搜索问题,并且其具有处理相关奖励的复杂情况的能力。