使用记忆编辑在强化学习中学习用户定义的子目标
本研究提出了一种新的强化学习框架来帮助完全可控的智能体进行路径规划,并通过使用双向记忆编辑方法得到智能体的不同双向轨迹,隔离政策网络并利用专门的子目标网络来将智能体移动至不同方向,最后通过奖励形态化来缩短智能体到达目标的步骤数。实验结果表明,智能体能够到达训练中从未到达过的各种目标,并且能够使用奖励形态化来选择较短的路径。
May, 2022
通过训练一个模型来从已知的目标状态开始进行逆向预测,将强化学习中的目标函数引入到代理中,从而加速训练过程,并在 Gridworld 和汉诺塔游戏中进行了实验验证。
Mar, 2018
强化学习是解决环境并实现目标达成的框架,该研究提出了一种灵活的算法来提升学习效率并确保目标达成的性质。通过实验证明,该算法能够增强学习效果并保持目标的达成性质。
May, 2024
提出了一种基于动态规划方程的强化学习框架,能够自然地解决多目标查询问题,并使用子目标树结构构建轨迹,从而扩展策略梯度法来预测子目标,应用于神经运动规划领域,与标准强化学习相比,取得了显著的改进。
Feb, 2020
介绍了一种通过结合无监督表示学习和强化学习来获得一般技能库的算法,可以处理原始感官输入(如图像),并使用后期目标重新标记方案来进一步提高其方法的样本效率,在实际机器人系统上获得了比之前的技术更好的效果。
Jul, 2018
我们提出了一种新颖的方法,利用人类在 3D 实体环境中解决任务时使用的无约束自然语言数据,通过软约束目标空间,对一组长期任务进行层次强化学习,从而实现在现实或开放环境中实现目标导向行为的挑战。
Sep, 2023
提出一种新的强化学习(Reinforcement Learning)模型,具有可解释性且支持深层次子目标(subgoal hierarchies)的发现。该模型使用概率规则学习有关环境的信息,而(子)目标的策略则是它们的组合。学习无需奖励函数,只需提供主要目标,而目标的子目标被计算为状态的描述,如果先前达成这些描述,便可提高给定目标的可用策略的总效率。这些状态描述通过引入新的传感器谓词来加入代理的规则语言中,从而允许传感到重要的中间状态并相应地更新环境规则和策略。
Feb, 2022
本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法,可以应用于大规模的问题,实现了对环境模型的无需获取,用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。
Oct, 2018