- 超声导航引导的目标条件强化学习
通过对比学习为目标条件强化学习的超声导航辅助方法能够有效提高新手超声医生的效率,并降低扫描中获取的变异性。
- 目标条件的强化学习中通过自适应技能分配实现目标探索
通过自适应技能分布来优化探索效率,并且提高对环境结构模式的利用,这能够显著改善目标导向强化学习中的探索效率,并在具有类似局部结构的未知任务中展现强大的泛化能力。
- AAAIReRoGCRL:基于表示的目标条件强化学习中的鲁棒性
我们提出了一种新颖的攻击方法和防御机制,分别是半对比表示攻击和对抗性表示策略,用于增强目标导向强化学习算法的对抗鲁棒性。
- 偏差弹性多步离策略目标条件强化学习
通过解决多步 GCRL 中的偏差问题,本文提出了一种方法来提高学习效率,并在实证研究中证明该方法在十步学习场景下能够优于基线和多步 GCRL 的几个先进模型。
- 离线目标条件强化学习的评分模型
基于离线数据集、无初始监督、且没有判别器的分布匹配方法 (SMORe) 在 GCRL 中取得了显著的性能提升。
- 目标条件智能体开放式学习问题定义
开放式学习是一个复合概念,其核心特性是在无限时间内不断产生新元素,并以开放式目标条件下的强化学习问题为重点研究领域。该研究旨在定义开放式学习的基本属性,并探讨其与相关概念的区别与联系,以填补目前在发展性人工智能研究中的知识空白。
- f - 策略梯度:一种使用 f - 散度的目标条件化强化学习的通用框架
此研究论文介绍了一种名为 $f$-PG 的新型鼓励探索方法,通过最小化智能体状态访问分布与目标之间的 f - 分歧来实现稀疏奖励环境下的优化策略,同时引入了熵正则化策略优化目标 $s$-MaxEnt RL 用于优化度量为 L2 的奖励,在多 - 通过扩散学习实现目标达成
Diffusion models 可以将高维空间中的随机噪声通过迭代去噪映射到目标流形,来解决强化学习中以目标条件为导向的问题。本文提出了一种名为 Merlin 的方法,利用类似扩散过程的思想,在高维空间中构建从潜在目标状态扩散而远离的轨迹 - 基于解离式可达性规划的目标驱动强化学习
我们提出了一种基于目标条件的强化学习算法,结合了解缠绕的可达性规划(REPlan),用于解决时间延展任务,在模拟和真实世界任务中,REPlan 显著优于之前最先进的方法。
- 基于磁场的奖励设计器用于目标导向式强化学习
本文提出了一种基于磁场的奖励制形式,结合了非线性和非各向同性分布,将传统奖励制应用于目标驱动的强化学习任务,得到更好的样本效率和学习性能。根据磁铁所产生的磁场强度建立奖励函数,并通过学习二次潜在函数以实现最优策略不变性。实验结果表明,相对于 - ICLR规划探索目标
本文提出了 Planning Exploratory Goals(PEG)方法,在目标条件强化学习中以直接优化内在探索奖励为目的,为每个训练周期设置目标,从而最大限度地探索环境,通过学习世界模型和适应采样规划算法来规划目标命令,从而实现更有 - ICLR使用目标条件策略模拟基于图的规划
该论文提出了一种基于图形规划算法和自我模仿的方法,通过提取子目标策略来优化目标目标策略,从而提高在长期任务中实现指定目标的样本效率。
- 基于通用函数逼近和单策略聚合的可证明高效离线目标条件下强化学习
本文提出了一种新的基于离线数据的强化学习算法,该算法拥有通用函数逼近能力、单策略集中性和统计效率,并且只需要极少的假设前提和计算稳定性。
- 离散阶乘表示作为目标条件强化学习的抽象
提出了一种称为 DGRL 的方法,该方法通过学习目标的阶乘表示,并通过离散化瓶颈进行处理,以更粗略的目标规范来解决在噪声和高维度输入空间中定义目标的挑战;实验证明应用离散化瓶颈可以提高目标条件下的 RL 设置的性能。
- 利用预训练技能来拓展目标勘探,用于稀疏奖励长时间尺度的目标条件加强学习
本文提出了一种新的学习目标,通过优化已实现和未来需要探索的目标的熵,以更高效地探索子目标选择基于 GCRL,该方法可以显著提高现有技术的探索效率并改善或保持它们的表现。
- ICLR查询智能体:通过认知不确定性估计提高样本利用效率
本研究提出了一种名为 “Query The Agent (QTA)” 的新算法,它通过在状态空间中估计代理的认识不确定性并在高度不确定的区域中设定目标来显著提高样本效率。 QTA 利用一种名为 “Predictive Uncertainty - 用度量残差网络进行高样本效率的目标条件强化学习
本文介绍了一种基于 Metric Residual Network (MRN) 的神经架构来实现物理机器人中的效率更高的 goal-conditioned reinforcement learning (GCRL),在 12 个标准基准环境 - 在潜空间中通过组合目标实现高效在线微调
本文提出了一种名为 Planning to Practice(PTP)的方法,旨在解决普适性机器人面临的目标达成困难和训练代价高的问题,通过分解目标化问题和离线增强学习与在线探索相结合的方法,实现对复杂任务的有效训练和解决。
- IJCAI目标导向强化学习:问题与解决方案
本文综述了目标条件强化学习的挑战、算法、目标表示以及未来研究方向。
- 基于后继特征标志的长视程目标导向强化学习
本文介绍 Successor Feature Landmarks(SFL),它是用于大型、高维空间的探索的一个框架,该框架利用继承特征(SF)的能力来驱动探索,估计状态新颖性,并通过将状态空间抽象为基于非参数地标的图表,启用高级别规划,实现