纳入未来信息的策略梯度

Aug, 2021

Policy Gradients Incorporating the Future

David Venuto, Elaine Lau, Doina Precup, Ofir Nachum

TL;DR这篇论文提出了一种名为 PGIF 的方法，通过信息瓶颈机制，允许强化学习中的代理观察未来的真实结果，从而获得有关未来轨迹动态的更加丰富的信息，以在不完全可观察的环境中实现更高奖励的目标。

Abstract

Reasoning about the future -- understanding how decisions in the present time affect outcomes in the future -- is one of the central challenges for reinforcement learning (RL), especially in highly-stochastic or partially observable environments. While predicting the future directly is

reinforcement learning future reasoning policy gradients information bottleneck partially observable environments

发现论文，激发创造

回顾策略梯度

本文研究如何将 hindsight 引入到 policy gradient 方法中，对各种稀疏奖励机制进行实验并表明 hindsight 能显著提高样本效率。

Nov, 2017

未来预测能成为部分可观察环境中良好历史表达的有力证据

在部分可观察环境中，学习历史表征是强化学习的核心挑战之一。本文通过未来预测的方式探究了历史表征学习的有效性，并证明了强化学习的性能与未来观察的预测准确性密切相关。同时，该方法可以阻止高方差嘈杂信号对表征学习的影响，显著改善整体端到端方法。通过在需要处理长时间历史的三类基准测试中验证了我们的观点。

Feb, 2024

想象价值梯度：基于模型的策略优化和可转移的潜在动态模型

本文研究如何通过模型驱动的增强学习方法促进任务转移，提出了基于动作条件的预测模型学习算法，用于机器人操作任务中的策略优化并在转移学习场景中取得了显著的学习速度提升。

Oct, 2019

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

进化策略梯度

该研究提出了一种元学习方法，用于学习基于梯度的加强学习算法，即演化可微损失函数，以便代理可以最小化该损失来优化其策略并获得高回报。经实证结果表明，与现成的策略梯度方法相比，所提出的演化策略梯度算法（EPG）在几个随机环境上实现了更快的学习，且其学习的损失可以推广到测试时间外的任务，并呈现出与其他流行的元学习算法截然不同的行为。

Feb, 2018

部分可观测环境下的策略梯度：近似和收敛

本研究针对部分可观察环境进行了政策梯度算法的开发和分析，使用马尔可夫策略类，对于开发技术工具和分析算法的效果进行了评估并进行了理论拓展，为政策梯度算法在现实应用中的使用提供了新的认识。

Oct, 2018

具有前瞻信息的强化学习

通过利用先验信息，我们设计了一种能够有效地学习和处理未知环境中的强化学习问题的算法，大大提高了收集奖励的效率。

Jun, 2024

多智能体强化学习中影响长期行为

本文提出了一个基于 farsighted objective 的新优化目标以及一种新的多智能体强化学习方法，实现了优于现有基线结果的长期性能。

Mar, 2022

政策优化中的乐观和适应性

本研究通过乐观性和适应性对政策优化进行强化，从而将看似无关的算法重新表述为两个交错步骤的重复应用，并设计了一种通过元梯度学习实现的自适应乐观政策梯度算法。

Jun, 2023

结合长期未来的强化学习动力学模型学习

本文着重于构建一个具有考虑长期未来的模型，并展示如何利用它进行有效规划和探索，通过搜寻模型下的不可能轨迹来设计探索策略，并在两种学习环境中取得了比基线更快更高报酬的效果。

Mar, 2019