智能问题解决作为集成的分层强化学习

Aug, 2022

智能问题解决作为集成的分层强化学习

Intelligent problem-solving as integrated hierarchical reinforcement learning

Manfred Eppe, Christian Gumbsch, Matthias Kerzel, Phuong D. H. Nguyen, Martin V. Butz...

TL;DR通过综述认知心理学的文献，探讨分解抽象和预测处理等认知机制对分层机器学习的影响，并提出集成这些认知机制的方案来提升人工智能问题解决能力。

Abstract

According to cognitive psychology and related disciplines, the development of complex problem-solving behaviour in biological agents depends on hierarchical →

hierarchical reinforcement learning problem-solving cognitive mechanisms biological agents artificial agents

发现论文，激发创造

认知层次中的在线学习与规划

复杂的机器人行为通常需要多种机器人和人工智能技术和组件的整合。使用一个形式化的框架来模拟组件之间的交互可以解决认知机器人面临的重大挑战之一。本文将现有的一个形式化框架扩展，以模拟机器人系统的复杂集成推理行为，从符号规划到策略和转换系统的在线学习，并允许更灵活地建模不同推理组件之间的交互。

Oct, 2023

基于神经启发的层次强化学习在运动控制中的应用

通过仿效哺乳动物中央运动系统机制，我们提出了一种神经启发的分层强化学习算法，使得机器人能够学习丰富的运动技能并将其应用于复杂的任务环境中，而不依赖外部数据。

Nov, 2023

认知人形机器人的渐进过程与感觉运动学习

本文基于 CONAIM 模型，以增量方式学习程序，并通过增加学习过程的奖励函数提高认知代理的认知复杂性，从而解决了复杂任务。

Apr, 2023

具有缩减计划的分层强化学习

本文提出了一种基于阿布达比符号规划的层次强化学习方法，该规划器可以处理用户定义的评估函数，并且不基于 Herbrand 定理。因此，它可以利用奖励的先前知识，并且可以在状态空间未知的领域中工作。我们在实验中证明了我们的体系架构在未知状态空间和多目标存在时，相对于评估领域的训练样例数量，可以显著提高学习效率。

Jun, 2018

学习多级层次结构及回溯

本文介绍了一种新的 Hierarchical Reinforcement Learning (HRL) 框架 - Hierarchical Actor-Critic (HAC)，该框架能够克服在试图同时学习多个策略层级时出现的不稳定性问题，并能够在连续状态和动作空间的任务中成功地学习 3 级层级。

Dec, 2017

协作人工智能的层级框架

我们提出了一个针对协同智能系统的分层框架，运用机器学习辅助，针对交互活动和信息共享的不同层次和挑战，包括传统工程方法和现代机器学习方法，最后探讨了沟通和理解共享、解释和社会协同等问题，总结出未来的研究挑战和为人类社会带来的经济和社会影响。

Dec, 2022

层次化模仿与强化学习

论文提出了一种算法框架，称为层次性指导，旨在通过利用专家的反馈来学习序贯决策制定策略，以应对奖励稀疏和时间范围长等问题，该框架可以在不同的层次上组合不同的 imitation learning 和 reinforcement learning，从而大大减少专家工作量和探索成本，并对该框架的某些实例的标注成本进行了理论分析。

Mar, 2018

数据效率的分层强化学习

本文研究如何构建通用且高效的层次强化学习算法，其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督，并使用脱离策略的经验来提高效率。我们称此算法为 HIRO，并在模拟机器人上的实验中表现出高性能和高样本效率。

May, 2018

具有 AI 规划模型的分层强化学习

本研究提出了一种将高层次 AI 规划与强化学习相结合的综合方法，通过建立 AI 规划问题的状态转换模型与马尔科夫决策过程的抽象状态转换系统之间的对应关系，使用内在奖励学习定义层次强化学习中的操作，以增强其一致性与从容。实验结果表明，与现有方法相比，该方法在 MiniGrid 和 N 房间环境中表现更好。

Mar, 2022

多任务强化学习中的层次和可解释技能获取

本文提出了一种用于有效的多任务强化学习的新框架，该框架可以训练代理人使用分层策略，决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系，并在 Minecraft 游戏中进行了验证。

Dec, 2017