关键词hierarchical reinforcement learning
搜索结果 - 101
- CVPR带有目标关系图的层次化和部分可观察的目标驱动策略学习
本研究提出一种新型的基于两层分层强化学习的目标驱动任务解决方法,使用 Goals Relational Graph 优化部分可观察的目标导向任务,例如目标驱动视觉导航,实验结果显示该方法在新环境和新目标上表现出卓越的泛化性能。
- ICLR通过发现内在选项进行分层强化学习
提出了一种层次强化学习方法 HIDIO,该方法可以自监督地学习任务不可知的选项,同时学习利用这些选项来解决稀疏奖励任务。实验结果显示,相比于常规 RL 基线和两种最先进的层次化 RL 方法,HIDIO 在稀疏奖励机器人操作和导航任务中具有更 - AAAI相对变分内在控制
本文介绍了一种能够让代理人在缺乏外部奖励的情况下,通过在环境中识别和掌握一系列不同技能来学习有用行为的技术。该技术利用相对变分内在控制(RVIC)技巧学习目标,以在改变代理人与环境之间关系的方面有区别的技能为奖励目标,生成了一组技能,这组技 - 从像素到四肢:四足动物运动的分层学习
使用分层强化学习的方法,我们设计了一个四足机器人的策略网络,使之可以对复杂场景和地形进行动态腿部动作并同时处理视觉输入,体现障碍物回避和路径规划,此网络同时学习高层次神经网络策略和底层神经网络策略,达到相对于不分层的神经网络策略更高的学习效 - 层次强化学习的抽象值迭代
提出一种新的基于连续状态和动作空间的控制的分层强化学习框架,其中用户指定状态的子集作为子目标区域,然后学习这些子目标区域之间的转换,并在生成的抽象决策过程 (ADP) 中构建高层计划,通过计划在抽象层和在具体层上的学习相结合的一个实际算法, - 基于 EM 的可证明分层模仿学习
本文利用潜在变量模型将层次化模仿学习问题转化为参数推断,理论上表征了 Daniel 等人(2016)提出的 EM 方法。研究了种群水平算法作为中间步骤的性能保证,证明了该算法在一定的正则条件下以高概率收敛于真实参数周围的范数球上。据我们所知 - 层次强化学习中生成受邻近约束的子目标
本文研究了基于目标的层次强化学习(HRL)中高层次行动空间(即目标空间)的训练效率问题,提出了使用邻接约束把高层次动作空间限制为当前状态的 $k$ 步领域,证明该约束在确定性 MDPs 下保留了最优层次策略,实现方法是训练一个区分相邻和非相 - 通过学习分析表达式实现组合泛化
通过基于神经网络和具有符号功能的可变插槽进行变通泛化的记忆增强神经模型,该模型由两个协同神经模块组成,一个是 Composer,另一个是 Solver,通过分层强化学习算法进行端到端训练,实现变通组合能力,其在 well-known ben - CVPR封建式转向:针对转向角预测的层次学习
本论文提供了一种基于封建网络和分层强化学习的车辆代理预测从车辆驾驶数据集中的第一视角实时图像进行自动驾驶方向盘角度预测的新方法,演示了在 Udacity 数据集上最先进的预测结果。
- 多智能体系统中的公平学习
该研究提出了一种新型的分层强化学习模型 FEN,使用分层的控制器和子策略来平衡多智能体学习中的公平性和效率;FEN 可以被完全分散地训练和在多智能体场景中显著优于基线模型。
- 类人决策:层次强化学习在文档级别方面情感分类中的应用
本研究提出了一种新的 Hierarchical Reinforcement Learning (HRL) 方法来解决文档级别的方面情感分类(DASC)任务中的数据噪声问题,该方法结合了从句子和单词层面上的选择策略和情感打分预测器来引导选择相 - 基于优势辅助奖励的分层强化学习
本文提出一种基于 Hierarchical Reinforcement Learning 的框架,通过设置辅助奖励来适应下游任务,同时保持奖励设计的通用性。这种辅助奖励可实现高级策略和低级技能的高效、同时学习,无需使用特定任务的知识。实验结 - 为什么在强化学习中层级结构有时候能够成功?
本研究评估了层次强化学习中多个优点在包含运动、导航和操作的任务套件上的表现,发现大多数观察到的层次性优势可以归因于改进的探索,而不是政策学习或强制性的层次结构。给定此洞察,我们提出了启发式的探索技术,其性能与层次强化学习相当,同时使用和实现 - 用于开放领域对话的分层强化学习
本文提出使用分层强化学习(VHRL)框架对基于变分序列模型的话语级嵌入进行策略梯度调整的新方法,以优化开放域对话生成。使用自我对弈和强化学习优化人类中心的会话指标,与包括变形金刚在内的最先进的对话模型相比,证明我们的方法在人类评估和自动指标 - AAAI学习坐姿:通过分层控制合成人与椅子的交互
通过深度强化学习基于物理的角色动画的最新进展,本文提出了一种基于层次化强化学习的框架,通过一系列子任务控制器的集合进行训练以模仿简单的可重复使用的动作来完成交互任务的人物动作,实验结果显示本方法优于非层次化和层次化基线的方法,并且可以应用于 - 信息受限基元的竞争性集成强化学习
通过信息理论机制,提出了一种基于分解原语的策略输入的设计方法,这种方法比扁平和分层策略的泛化性都更好。
- ICLR分层强化学习中的子策略适应
本文提出了一种新的分层强化学习算法 HiPPO,它可以根据新任务的训练不断调整技能并与更高层次一起训练,该算法引入了一个无偏差的潜变量依赖基准的分层策略梯度,并提出了一种训练时抽象方法,以提高所获得技能对环境变化的鲁棒性。
- KDD基于深层次层次强化学习的多目标抽象推荐
该论文提出一种基于分层强化学习的推荐框架,其中高层代理获取长期稀疏的转化信号并设置抽象目标,而低层代理根据抽象目标与实时环境交互,提出了多目标抽象的深层分层强化学习算法并验证其有效性。
- 多智能体 MOBA 游戏的分层强化学习
本文提出了一种新颖的分层强化学习模型,通过模仿学习从事宏观策略,并通过强化学习进行微观操作,以应对多人在线战斗竞技游戏 (MOBA) 中包含的大量状态空间、动作空间和隐藏信息,并且该模型在缺乏游戏引擎或 API 的情况下,还设计了一种密集的 - ICLR基于优势加权信息最大化的分级强化学习
本研究提出了一种基于相互信息最大化学习层次策略潜变量的 HRL 方法,用于优化连续控制任务中的强化学习性能,并介绍了优势加权重要性采样和确定性策略梯度方法,以实现选项策略选择和优化。实验结果表明,该方法可以学习多样化的选项并增强连续控制任务