- 复杂 3D 环境中的分层强化学习
使用层次混合离线 - 在线的深度强化学习代理提出了一种解决 HRL 代理在可视复杂部分可观察 3D 环境中的问题的方法,并在 DeepMind Hard Eight 任务中与非分层 Muesli 基线相竞争,研究揭示了以前未注意到的实际挑战 - 基于 METEOR 指导的视频字幕生成技术
提出了一种新颖的双重方法,BMHRL,用于自动视频字幕。使用 BMHRL,该研究展示了基于 HRL 代理的内容完整和语法良好的语句生成,并为用户和开发人员提供了 BMHRL 框架和训练模型的公开功能。
- 虚拟室内场景中家具布局的分层强化学习
本文使用层次化强化学习 (HRL) 将家具布局任务作为马尔科夫决策过程 (MDP) 完成,以实现在室内场景的虚拟现实中产生适当的二家具布局,最终结果表明该模型可以产生比现有模型更高质量的布局。
- 基于因果推断的强化学习层次化结构发现
本论文提出了 CDHRL 框架,通过因果驱动探索而非随机驱动探索来构建高质量的分层结构,以提高分层强化学习的探索效率。实验表明,在 2D-Minecraft 和 Eden 两种复杂环境中,CDHRL 显著提高了探索效率。
- DHRL: 一种基于图的长时间和稀疏层次强化学习方法
本文提出了使用图形解耦合高层次和低层次策略视野的分层强化学习方法,该方法可以使高层次策略的操作间隔更加灵活,从而实现更长的时域抽象和更快的训练。与现有的分层强化学习算法相比,该方法在数据效率方面表现更好,在典型的分层强化学习环境中实现了复杂 - 层次强化学习优化工业暖通空调系统
通过使用分层强化学习技术,该论文对工业冷却系统进行优化,实现了节能的同时,控制了 HVAC 控制环境下冷却机的安全边界。
- 因果耦合机制:一种复杂系统合作与竞争控制方法
该研究提出一种新的控制方法 —— 因果耦合机制,它将复杂系统分解成多个模块化结构,利用层次化强化学习理论中的高级策略来控制复杂系统,并结合了级联控制模块和前向耦合推理模块来帮助分解和合并,在合成系统和生物调节系统上实现了最先进的控制结果,并 - 智能问题解决作为集成的分层强化学习
通过综述认知心理学的文献,探讨分解抽象和预测处理等认知机制对分层机器学习的影响,并提出集成这些认知机制的方案来提升人工智能问题解决能力。
- 分布式多智能体协作的对手建模层次强化学习
本文介绍了一种基于深度强化学习的多智能体协作方法,通过分布式学习实现了高效的策略搜索,并在合作变道场景中进行了仿真和实际案例验证。
- 基于像素的深度分层规划
通过在一个学习好的世界模型的潜在空间 planning,我们引入了一种名叫 Director 的实用方法,直接从像素学习分层行为,无需手动指定目标空间或子任务,并在具有稀疏奖励的任务中表现超越了探索方法。
- 多阶段强化学习任务的协作策略开发
本文提出了合作连续策略(CCP) 方法,可以让连续的代理合作解决长时间跨度的多阶段任务,在多个测试领域中,该方法成功地超越了一组简单策略,单一代理以及另一个顺序 HRL 算法。
- 分层强化学习中的信用分配
研究探讨了如何从常规多步强化学习的角度看待分层信用分配,并将其改进为能够提高代理性能的层次算法。
- 具有 AI 规划模型的分层强化学习
本研究提出了一种将高层次 AI 规划与强化学习相结合的综合方法,通过建立 AI 规划问题的状态转换模型与马尔科夫决策过程的抽象状态转换系统之间的对应关系,使用内在奖励学习定义层次强化学习中的操作,以增强其一致性与从容。实验结果表明,与现有方 - 机器人内在动机和自动课程学习实现逐步复杂任务
提出了一种多任务学习的层级强化学习框架,名为 SGIM-SAHT,用于使机器人完成各种复杂的控制任务,并演示了该框架能够学习到基本的任务和复合任务之间的层次关系,从而实现了从简到难的任务学习,并通过表示任务依赖性、内在动机探索、主动模仿等途 - 选择的悖论:在分层强化学习中使用注意力
本文提出了一个注意机制来限制每个步骤的可用选项,通过学习 affordances 并进一步学习子目标选项,解决了层次强化学习中规划深度和分支因素的问题,并探讨了硬注意和软注意的作用,是一篇关于强化学习的研究论文。
- ICLR价值函数空间:面向技能的状态抽象实现长程推理
该论文探讨了如何使用层次强化学习来解决长期任务中存在的性能问题,并提出了一种名为 Value Function Spaces 的状态抽象方法,通过利用对应于每个低层技能的价值函数来表示任务相关信息,从而在迷宫解决和机器人操纵等任务中提高了性 - 基于路标引导的分层强化学习子目标生成
本文介绍了 HIerarchical reinforcement learning Guided by Landmarks (HIGL) 框架,该框架通过引导探索性的 Landmarks 来训练具有减少动作空间的高层级策略,实现高效探索。实 - AAAI深层选项学习的特定于上下文的表示抽象
本文研究通过 Context-Specific Representation Abstraction for Deep Option Learning(CRADOL)框架学习因子化信念状态表示,以便于每个选项只学习状态空间的子集,从而减少策 - 在混乱环境中有效学习面向目标的推 - 抓协同技能
本文提出了一种高样本效率的目标导向层次强化学习模型,使用推和抓策略来实现在混乱环境下抓取指定目标物体,经过一系列实验验证表明,该模型表现出了高的任务完成率和目标抓取成功率,并能够适应目标不明确的条件,并且可以直接转移到实际应用中。
- CVPR带有目标关系图的层次化和部分可观察的目标驱动策略学习
本研究提出一种新型的基于两层分层强化学习的目标驱动任务解决方法,使用 Goals Relational Graph 优化部分可观察的目标导向任务,例如目标驱动视觉导航,实验结果显示该方法在新环境和新目标上表现出卓越的泛化性能。