游戏中学习 —— 从零开始解决稀疏奖励任务
本研究探索和对比了现有的强化学习方法,以避免仅提供稀少回报的环境的难度,并在不同难度和奖励频率的几个电子游戏环境中实施和比较不同的解决方案,提出了一种结合好奇心驱动探索和无监督辅助任务两种方法的新型强化学习解决方案。
Oct, 2019
通过多任务强化学习方法,本文在真实机器人上实现了视觉导向控制策略的快速训练技术,并在模拟和真实世界的 Ball-in-a-Cup 游戏中进行了测试。
Feb, 2019
在机器人领域,通过从离线数据集中学习实现多项技能的智能体是一个重要问题。本文提出了在自监督学习阶段对预先收集的数据集进行处理以理解模型的结构和动态,并对离线学习的策略进行强化学习的方法。我们在三个连续控制任务上评估了我们的方法,并展示了我们的模型在特别是涉及长期规划任务上明显优于现有方法。
Jan, 2023
通过生成和学习有用的辅助任务,最大化经验重用,从而学习解决给定任务的方法,通过计数推理和离线策略方法同时学习这些辅助任务,从而实现多任务强化学习的新框架。
Mar, 2023
该论文介绍了一种深度强化学习代理,它不仅能够直接最大化累积奖励,在共同的表现下还能同时最大化许多其他伪奖励函数,该代理基于不受外部奖励影响的无监督学习得到共同的表现,并对外部奖励进行关注,可以快速适应实际任务,在 Atari 和三维 Labyrinth 任务中都取得了显著的优异表现。
Nov, 2016
本文介绍了一种基于最大熵强化学习框架的离线演员 - 评论家算法 Soft Actor-Critic,其中演员旨在同时最大化期望回报和熵,以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进,如约束模型等,提高了模型的稳定性和训练速度,并在基准任务以及四足机器人的运动和灵巧手的机器人操作等现实世界挑战任务中取得了最先进的性能,在样本效率和渐近性能方面优于以往的在线和离线算法。
Dec, 2018
多任务强化学习中,通过引入任务特定的动作修正方法可以提高机器人的泛化能力,解决任务之间的冲突和负面干扰问题。该方法通过将策略学习分解为共享策略和动作修正策略,并引入稀疏奖励和拉格朗日方法,有效解决多目标多任务强化学习问题,实验结果显示其在样本效率和行为执行有效性上明显优于现有的方法。
Apr, 2024
本文介绍了一种通用的子目标类别,应用于端到端层次强化学习系统中,可用于处理含有稀疏奖励的 Montezuma 的复仇等 Atari 游戏。该方法引入了一组时间扩展行动,或选项,以及对应的子目标。
May, 2017
通过添加计划的辅助控制和辅助任务的示例,本研究在基于示例的控制任务中显著提高了探索能力,并解决了价值估计超出理论限制的问题,从而大大提高了学习效率。
Jul, 2024
本研究提出了一种层次化的方法,将模仿学习和离线强化学习的优点相结合,学习从高维相机观察中获得与任务无关的长时程策略,并通过技能链接来合并潜在的行为先验,以达到以前未见的技能组合,从而更好地控制机器人的实验结果。
Sep, 2022