本文提出了一种基于逆向强化学习的方法,用于训练机器人完成目标导向任务,该方法自动生成适应智能体表现的初始状态课程,即使面对目前最先进的强化学习方法无法解决的困难仿真导航和纤细操纵问题也可取得显著成果。
Jul, 2017
本研究提出了使用基于学习的方法,实现任务无关的探索性导航的想法,在对比传统的使用几何技术和通用学习技术的情况下,所采用的包括了空间记忆的策略可以更好地探索新的 3D 环境,并将其用于下游任务。
Mar, 2019
本文提出了一种新颖的无模型强化学习策略梯度算法,采用基于概率的有指导性的探索策略,相比现有熵正则化方法更有效地探索高维度的稀疏奖励空间,并在一系列算法任务上得到了成功的应用。
Nov, 2016
本文提出了一种新的梯度算法,用于从专家观察行为中学习策略,假设专家根据某种未知奖励函数行动最优,算法的目标是找到一个奖励函数使得最优策略与专家观察行为匹配良好,并且在两个人工数据集中表现更加可靠和高效。
Jun, 2012
我们提出了一个多步骤过程,通过学习一个逆向的世界模型、生成目标达成的逆向轨迹、使用最短路径搜索算法改进这些序列,并通过模仿学习训练神经网络策略,肯定地回答了在强化学习中是否可以学习没有奖励的策略以及仅通过尝试达到目标状态是否可以学习策略的问题。在一个确定性迷宫环境中进行评估,其中观测是 64×64 像素鸟瞰图像,并且可以表明该方法始终达到多个目标。
Dec, 2023
本文介绍了一种使用自然语言帮助强化学习泛化至未知环境技术的方法,使用编码器 - 解码器网络来学习自然语言行为描述与状态 - 动作信息之间的关联,并使用改进的策略塑造算法来指导智能体探索,从而提高其在未知环境中的学习能力。通过对经典游戏 Frogger 的评价,表明我们的改进策略形态算法在优化学习上优于 Q-Learning 算法和基线策略形态算法。
采用共享奖励系统鼓励多样性行为是避免进化算法陷入局部极小值的有效方法,用于解决迷宫问题和 Atari 游戏,相比 Novelty Search 方法,本文方法实现更简单且性能更好。
Jun, 2022
提出了一种基于 Adversarial training 的方法,用于 Reinforcement learning 中任务发现的问题,可以实现在不需要任何先验环境知识的情况下,对多元化任务的高效自动学习,并且能够解决传统上存在的稀疏奖励问题。
May, 2017
该论文提出一种新的元学习方法,可以通过与一组环境交互,发现一个包含价值函数和时间差分学习等元素的更新规则,从而得到一个名为 LPG 的 RL 算法,该方法可以发现自己对于价值函数的替代方案,并有效地推广到复杂的 Atari 游戏中。
Jul, 2020
本文提出了一种基于自我模仿学习的深度强化学习算法,旨在优化在稀疏和情景化奖励设置下的 RL 算法的效率,并使用 Stein 变分策略梯度下降来解决自我模仿学习的局限性,并在连续控制 MuJoCo 运动任务的一个具有挑战性的变体上展示了其有效性。
May, 2018