- MTAC:基于层次强化学习的多足可适应地形控制器
城市搜救和救援任务需要快速的第一反应,以减少生命和财产的损失。我们提出了一种多步态的地形自适应控制器(MTAC)来应对四足机器人在动态和崎岖地形环境中的挑战。通过使用层次强化学习的方法,我们证明了该方法在各种环境下的扩展性和计算时间与最先进 - 使用参数化操作基元学习外在灵巧性
通过学习层次化强化学习,我们能够利用环境改变目标物体的姿态,无需物体检测、姿态估计或手动设计控制器,从而成功地完成 98% 的实验任务。
- 层次强化学习用于时间模式预测
我们探索了使用分层强化学习(HRL)来预测时间序列的任务。结合深度学习和分层强化学习的方法,我们开发了一个股票智能体来预测历史股价数据的时间序列,以及一个车辆智能体来预测第一人称车载摄像头图像中的转向角。我们在两个领域的结果表明,称为封建式 - 通过感知交互意识的自动转换提升特征认知能力
通过引入一种交互感知的增强生成视角,我们重新定义特征空间重建为通过选择创建有意义的特征和控制特征集大小的嵌套过程,从而自动化特征和操作的选择以及特征交叉。通过结合统计度量,我们基于所选特征之间的相互作用强度奖励智能体,实现了对特征空间的智能 - 基于能耗的 CubeSat 任务调度的安全层次强化学习
该论文提出了一种针对低地球轨道下 CubeSat 任务调度进行优化的分层强化学习方法,该方法通过集成相似性注意力编码器(SABE)进行任务优先级排序和多层感知器(MLP)进行能源消耗预测,实现了全局任务分配的高层策略和实时调整的低层策略,从 - 自然语言子目标的层次强化学习
我们提出了一种新颖的方法,利用人类在 3D 实体环境中解决任务时使用的无约束自然语言数据,通过软约束目标空间,对一组长期任务进行层次强化学习,从而实现在现实或开放环境中实现目标导向行为的挑战。
- 层次强化学习中的目标空间抽象通过基于集合的可达性分析
我们提出了一种通过紧密的表示来发现目标表示的发展机制,该机制可以将具有类似任务角色的环境状态集合抽象(即,分组在一起)。我们引入了一种 Feudal HRL 算法,该算法同时学习目标表示和分层策略。该算法使用神经网络的符号可达性分析来近似状 - 通过可达性分析在层次化强化学习中的目标空间抽象
通过自动发现类似任务中具有相似角色的环境状态集合的新兴表示法,我们提出了一种基于发展机制的子目标发现方法,该方法能够逐渐学习这种表示法,并且通过导航任务的评估表明学习到的表示法是可解释的,并且可以实现数据效率。
- 基于分层强化学习的未知网络传播控制方法
本文提出了一种层次式强化学习方法,通过在未知的网络结构下移除节点,有效控制危险事件的传播。模拟实验证明了我们的方法相比基准方法的优越性,尽管我们的方法对网络结构没有先验信息,而基准方法具有丰富的网络结构知识。
- 基于 Wasserstein 多样性丰富正则化的层次强化学习
通过最大化行动分布之间的 Wasserstein 距离,我们提出了一种新的任务不可知的正则化器 (WDER) 来增加子策略的多样性,实验证明我们的 WDER 可以提高性能和样本效率。
- 移动机器人多目标协作交互式搜索层次学习
本文介绍了一种新颖的交互式多对象搜索任务,并提出了一种层次强化学习方法,学习探索、导航和操作技能,该方法在模拟和实际的实验中展示了零样本迁移和对不同机器人运动学的适应性。
- 基于地标的主动探索与稳定底层策略学习
本文介绍了一种基于目标状态和价值函数的探索策略,可以有效解决高层次策略的行动空间过大和低级别策略的动态变化导致高层次政策的不稳定性问题。
- ICML城市自主驾驶的动作和轨迹规划:层次强化学习
本论文提出了一种基于分层强化学习方法的行动和轨迹规划器,有效地解决了城市自动驾驶场景下的多任务多车辆决策问题,并通过在 CARLA 模拟器中进行广泛实验证明了其显著的性能提升。
- 技能批评家:为强化学习优化学得技能
利用 Skill-Critic 算法,结合高层技能选择来优化低级和高级策略,通过离线演示数据学习到的潜在空间来指导联合策略优化,提高在多个稀疏环境中的决策性能。
- PEAR: 用于增强分层强化学习的原语启用自适应重新标记
本研究提出一种基于 Hierarchical Reinforcement Learning (HRL) 和 imitation learning 的算法,称为 primitive enabled adaptive relabeling (P - 推荐系统中用层次强化学习建模用户的新奇寻求意图
提出了一种新的基于层次强化学习的方法,用于建模用户的层次式好奇心意图,从而可以根据提取的用户好奇心倾向来调整推荐策略,通过在奖励功能中引入多样性和新颖性相关的度量来鼓励用户的探索,通过针对模拟和实际数据集的大量实验来证明了该方法的效果优于现 - IJCAI一种人工智能协作人口训练的层级方法
介绍了一种基于层级深度强化学习的人机协作方法,通过训练一个智能体来适应不同的合作伙伴,并且在 2 人合作的 Overcooked 游戏中进行测试验证。
- 有期半马尔科夫决策过程中基于期权的遗憾最小化算法分析
本文研究如何使用分层强化学习来解决复杂任务中规划时间过长的问题,并提供了关于时间抽象的上界,指出通过分层结构可以降低时间抽象,提高学习性能。在此基础上,本文重点探讨选项框架下可用选项的平均持续时间对规划时间和遗憾的影响,并放松了预先训练选项 - AAAIH-TSP:层次化解决大规模旅行推销员问题
本研究提出了一种基于层次强化学习的端到端学习框架,称为 H-TSP,用于解决大规模 TSP 问题,通过选择子集并使用深度学习模型直接生成解决方案,具有可扩展和高效性。
- CRISP: 层次强化学习中课程引导的基本原语子目标预测
本文提出了一种新的分层算法,通过生成可实现的子目标的课程来训练逐层递进的策略,通过在少量专家演示中使用基础解析方法进行数据重标注,得到了可以用于多数机器人控制任务的适用的逐层递进的强化学习算法,实验结果表明,课程学习可以显著提高分层强化学习