- 具有非对称距离度量的概率世界建模
学习一个距离函数对计划和推理在表示空间中至关重要,通过非对称对比学习将概率世界动态嵌入到表示空间中,并通过一个共同参考状态,发现几何上显著的状态作为子目标,有效地发现子目标。
- MENTOR:利用人类反馈和动态距离约束指导分层强化学习
通过引入人类反馈和动态距离约束,我们提出了一个通用的分层强化学习框架(MENTOR),作为 “导师” 参与高层策略学习以寻找更好的子目标,并设计了对应于探索 - 利用分离的双重策略以稳定训练。通过动态调整可选子目标的空间,MENTOR 可以 - AAAI多层级组合推理的互动指令跟随
使用多层次组合推理代理(MCR-Agent)将任务分解为多个子目标,分别处理导航和交互,实现了对复杂任务的有效执行,并在效率指标上相较于现有技术获得了 2.03%的绝对增益,无需使用基于规则的计划或语义空间记忆。
- 基于地标的主动探索与稳定底层策略学习
本文介绍了一种基于目标状态和价值函数的探索策略,可以有效解决高层次策略的行动空间过大和低级别策略的动态变化导致高层次政策的不稳定性问题。
- ACL中途休息:探究分层脚本生成中的子目标
本文从认知理论的角度扩展了目标导向脚本生成的任务,并提出了基于子目标的层次化组织方法。研究者们贡献了一个新的数据集,并提出了几种基线方法和评估指标,表明了子目标与层次化脚本生成的有效性。此外,研究者们还设计和评估了发现子目标的模型,并发现此 - AAAI从演示和指令中学习合理子目标
该研究提出了一个可从弱注释数据中学习有用子目标的框架,以支持高效长期规划以实现新目标,该框架的核心是基于环境状态的理性子目标 (RSGS),它们可以被指定为 A * 或 RRT 等规划算法的中间点,并显著提高规划效率。
- 关于目标设定的规范自我管理理论探讨
通过资源合理性原则、计算模型等方法来推导出一系列最优的子目标,从而为个人和管理者的目标设定提供可行的建议并且提高他们的问题解决性能。
- 层次强化学习中用于紧急操作终止的立即反应方法
提出一种方法,在强化学习中常常使用高级策略达到低级目标。本文在此基础上,针对现有方法无法验证高级动作是否过时的问题,通过对高级动作不断验证从而保持其有效性。通过实验验证,该方法能够在七个基准环境下同时具备分层 RL 和联邦 RL 的优点,实 - 探究逆向策略学习对逻辑辅导的影响:帮助子目标学习以改善问题解决
本文研究了一种在智能逻辑辅导员中教导学生如何倒退式思考策略,从而提高学生的分目标方法和解决问题的能力的培训策略,并分析了学生在培训过程中的经验,表现和证明建设方法。结果表明,训练了倒退式工作示例和解决问题的学生在独立解决新问题时表现更佳,而 - 从经验回放缓冲生成子目标的多智能体强化学习
本论文提出了一种名为 MASER 的新方法,它通过从经验回放缓存生成子目标来解决稀疏奖励的协作多代理强化学习问题。数值结果表明,与其他最先进的 MARL 算法相比,MASER 在 StarCraft II 微管理基准测试中显著优于其他算法。
- 基于矩估计的对抗训练用于语境感知理解
本文中,我们提出了 Moment-based Adversarial Training(MAT)的方法,用于帮助机器人处理家庭任务,并在 ALFRED benchmark 上取得了优异的结果。
- ReLMoGen: 借助动作生成在强化学习中实现移动操纵
本文提出了一种名为 ReLMoGen 的 Reinforcement Learning 方法,通过将行动空间提升到更高的阶级形式 —— 子目标,使用基于采样的运动规划器有效解决了传统方法无法解决的长期复杂任务,比如交互式导航和移动机器人操作 - MM层次强化学习实现弱监督视频摘要
提出了一种基于弱监督分层强化学习框架的视频摘要算法,该算法将任务分解为多个子任务,通过训练管理器网络为每个子任务设置子目标,在此基础上使用策略梯度预测视频帧的重要性得分,通过定义的子奖励和全局奖励来解决稀疏问题,并在两个基准数据集上实验证明 - AAAI为强化学习引入子目标自动机
本文提出 ISA,使用归纳逻辑程序设计帮助学习强化学习中的子目标,建立了可自我更新的自动机模型。实验证明,通过使用学习到的自动机进一步增强奖励调整和多任务迁移学习,ISA 能够在多种格局提供同样优秀的表现且对可观察事件数量的影响进行了分析。
- ICLRMGHRL:层次强化学习的元目标生成
本文提出了一种新的元强化学习算法,称为 Meta Goal-generation for Hierarchical RL (MGHRL),通过学习给定过去经验的高层次元策略来生成子目标,而将如何实现子目标留给独立的强化学习子任务来完成,实验 - 层次化先见之明:通过视觉子目标生成进行长时程任务的自监督学习
通过子目标生成和规划的分层视觉预见(HVF)框架,可以将任务分解成易于规划的片段,并自然地识别语义上有意义的状态作为子目标,在三个模拟的基于视觉的操作任务中,我们的方法实现了近 200% 的性能提升。
- ICLR信息瓶颈下的传递和探索
提出了一种利用信息瓶颈机制学习判决状态的增值方法,通过对观察的状态进行分析,识别有潜力的子目标进行新的探索,并指导代理经过判决状态和状态空间的新区域。
- ICLR回顾策略梯度
本文研究如何将 hindsight 引入到 policy gradient 方法中,对各种稀疏奖励机制进行实验并表明 hindsight 能显著提高样本效率。
- 层次强化学习中的特征控制作为内在动机
本文介绍了一种通用的子目标类别,应用于端到端层次强化学习系统中,可用于处理含有稀疏奖励的 Montezuma 的复仇等 Atari 游戏。该方法引入了一组时间扩展行动,或选项,以及对应的子目标。
- AAAI使用贝叶斯非参数子目标模型建模人类对复杂故意行为的理解
本文模拟了人类如何通过观察复杂动作序列来推断子目标,结合非参数贝叶斯模型进行了行为实验,证明了该模型在推断人类子目标方面的高准确性和较好的效果,同时还模拟了使用子目标学习和推断在人工用户辅助任务中如何提高性能。