通用策略映射:仿生昆虫大脑的在线连续强化学习
本文旨在开发一种方法,从传入的数据流中使用深度神经网络模型进行连续的在线学习,使用随机梯度下降算法来更新模型参数,并使用先验的中餐馆过程的期望最大化算法来开发和维护一种混合模型来处理非平稳任务分布。我们将元学习应用于基于模型的强化学习,以适应预测模型关键控制任务中的连续快速自适应。
Dec, 2018
研究提出了一种新的神经元学习规则,它使用突触前输入来调制预测误差,将其嵌入表格和深度 Q 网络强化学习算法中,可以在简单而高动态的任务中胜过传统算法,这提出了一种新的生物智能核心原则。
May, 2022
强化学习面临着应用于现实问题的巨大挑战,主要源于有限的与环境交互导致的可用数据的稀缺性。本研究引入了生物学上可行的近端策略优化的实现,通过在重要领域中显著减轻这一挑战,提高了学习的效率。
Jan, 2024
本研究提出了一种层次化的方法,将模仿学习和离线强化学习的优点相结合,学习从高维相机观察中获得与任务无关的长时程策略,并通过技能链接来合并潜在的行为先验,以达到以前未见的技能组合,从而更好地控制机器人的实验结果。
Sep, 2022
本文提出了一种实用的线下强化学习工作流程,类似于监督学习问题的工作流程,并演示了在几个模拟机器人学习场景和两个不同真实机器人上的三个任务中,使用此工作流程在没有在线调整的情况下生成有效策略的有效性。
Sep, 2021
本篇论文介绍了一种将在线增强学习与经典控制的元素(基于 Lyapunov 稳定性理论)进行结合的方法,可在不进行长期预训练的情况下为移动机器人提供稳定的控制能力,并通过实验研究证明了该方法的有效性。
Jul, 2022
本文提出了一种能够适用于机器人控制等实际问题,同时在批处理状态下能够有效学习的算法,该算法采用了优势加权行为模型 (ABM) 来对先前执行过的成功动作进行刻画,并对新的任务中可能成功的动作进行策略偏置,实验表明我们的算法在标准连续控制基准测试和多任务学习中都有着较好的效果。
Feb, 2020
该研究通过比较在线学习和离线学习等方法的泛化能力,引入离线学习泛化性能评估的新基准,并发现离线学习算法在新环境中的表现不如在线学习算法,而增加数据多样性能够提高离线学习算法在新环境中的性能。
Dec, 2023
离线强化学习(RL)在探索可能成本高昂或不安全的真实世界应用中至关重要。然而,离线学习的策略通常是次优的,需要进一步进行在线微调。本文解决了离线到在线微调的基本困境:如果智能体保持悲观态度,可能无法学到更好的策略,而如果直接变得乐观,性能可能会突然下降。我们证明贝叶斯设计原则在解决这种困境中至关重要。智能体不应采取乐观或悲观的策略,而是应根据其对最优策略的信念采取行动。这样的概率匹配智能体可以避免性能突然下降,同时保证找到最优策略。基于我们的理论发现,我们提出了一种优于现有方法的新算法,在各种基准测试中展示了我们方法的有效性。总体而言,所提出的方法为离线到在线 RL 提供了一种新的视角,有潜力使离线数据的学习更加有效。
May, 2024