提高代理学习的方法：保证所有回合实现目标

May, 2024

提高代理学习的方法：保证所有回合实现目标

An approach to improve agent learning via guaranteeing goal reaching in all episodes

Pavel Osinenko, Grigory Yaremenko, Georgiy Malaniya, Anton Bolychev

TL;DR强化学习是解决环境并实现目标达成的框架，该研究提出了一种灵活的算法来提升学习效率并确保目标达成的性质。通过实验证明，该算法能够增强学习效果并保持目标的达成性质。

Abstract

reinforcement learning is commonly concerned with problems of maximizing accumulated rewards in Markov decision processes. Oftentimes, a certain goal state or a subset of the state space attain maximal reward. In such a case, the environment may be considered solved when the goal is re

reinforcement learning maximizing accumulated rewards solving environments goal reaching property agent learning

发现论文，激发创造

前向 - 后向强化学习

通过训练一个模型来从已知的目标状态开始进行逆向预测，将强化学习中的目标函数引入到代理中，从而加速训练过程，并在 Gridworld 和汉诺塔游戏中进行了实验验证。

Mar, 2018

通过迭代监督学习学习实现目标

本文介绍了一种强化学习算法，利用模仿学习从零开始获得目标达成策略，而不需要专家演示或价值函数，并通过该算法在多个基准任务中达到了比现有强化学习算法更好的目标达成性能和鲁棒性。

Dec, 2019

CostNet: 目标导向强化学习的端到端框架

本文引入一种新的强化学习算法，通过学习马尔可夫决策过程中两个状态之间的距离来预测，距离度量作为内在奖励被用于推动智能体的学习。实验结果表明，相比于模型无关的强化学习，该算法在多个测试环境中具有更好的样本效率。

Oct, 2022

突破极限：重塑强化学习中的奖励

强化学习中，选择好的奖励函数是一个重要且具有挑战性的问题。本文提出了一种使用最大奖励而不是累积奖励的算法，适用于确定性和随机环境，并将其与现有的强化学习算法相结合。在实验中，我们研究了该算法在两个目标达成环境中的性能，并证明了其相对于标准强化学习算法的优势。

Feb, 2024

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用 2 倍样本，比模型自由方法少用 200 倍样本。

Oct, 2022

使用目标条件强化学习的路径规划中的全控制智能体

本研究提出了一种新的强化学习框架来帮助完全可控的智能体进行路径规划，并通过使用双向记忆编辑方法得到智能体的不同双向轨迹，隔离政策网络并利用专门的子目标网络来将智能体移动至不同方向，最后通过奖励形态化来缩短智能体到达目标的步骤数。实验结果表明，智能体能够到达训练中从未到达过的各种目标，并且能够使用奖励形态化来选择较短的路径。

May, 2022

多智能体强化学习中影响长期行为

本文提出了一个基于 farsighted objective 的新优化目标以及一种新的多智能体强化学习方法，实现了优于现有基线结果的长期性能。

Mar, 2022

教育中的强化学习：多臂赌博机方法

本研究通过上下文化和模拟累计奖励来解决教育上的干预建议问题，采用强化学习的代理模型结合混合学习方法，景点在线平台的自动化功能

Nov, 2022

回放缓存搜索：连接计划和强化学习

我们介绍了一种结合规划算法和强化学习的通用控制算法，称为搜索回放缓冲（SoRB），可以自动生成子目标序列并解决高维度的长期任务。

Jun, 2019

目标导向强化学习：问题与解决方案

本文综述了目标条件强化学习的挑战、算法、目标表示以及未来研究方向。

Jan, 2022