深度强化学习中的预测辅助目标模拟大脑学习

Oct, 2023

深度强化学习中的预测辅助目标模拟大脑学习

Predictive auxiliary objectives in deep RL mimic learning in the brain

Ching Fang, Kimberly L Stachenfeld

TL;DR预测性目标在深度强化学习系统中对表示学习和多区域交互建模具有显著效果，特别是在资源有限的架构中，长期的预测性视野能更好地支持表示转化。

Abstract

The ability to predict upcoming events has been hypothesized to comprise a key aspect of natural and machine cognition. This is supported by trends in deep reinforcement learning (RL), where self-supervised auxiliary objectives such as prediction are widely used to support

predictive objectives representation learning deep reinforcement learning neural activity multi-region interactions

发现论文，激发创造

自我预测何时有帮助？理解增强学习中的辅助任务

我们研究了辅助学习任务对强化学习中的表示学习问题的影响，包括观测重建和潜在自预测，并研究它们如何与干扰项和观测函数在 MDP 中交互。

Jun, 2024

未来预测能成为部分可观察环境中良好历史表达的有力证据

在部分可观察环境中，学习历史表征是强化学习的核心挑战之一。本文通过未来预测的方式探究了历史表征学习的有效性，并证明了强化学习的性能与未来观察的预测准确性密切相关。同时，该方法可以阻止高方差嘈杂信号对表征学习的影响，显著改善整体端到端方法。通过在需要处理长时间历史的三类基准测试中验证了我们的观点。

Feb, 2024

预测性表征：智能的构建基石

自适应行为的核心是预测未来事件，本研究将强化学习理论与认知和神经科学研究整合，特别关注继承表示及其推广，表明特定类型的预测表示可能作为智能的多功能基石。

Feb, 2024

简化基于模型的强化学习：使用单一目标学习表示、潜空间模型和策略

本研究提出了一种单一目标的方法，该方法同时优化隐空间模型和策略以实现高回报并保持自一致性，从而在提高样本效率的同时实现更好的强化学习效果。

Sep, 2022

比较强化学习表征学习的辅助任务

生成表示在强化学习中得到了稳步流行，由于其在提高样本效率和许多环境中的回报方面的潜力。本文对常见的辅助任务进行了比较，基于数百个使用最先进的离策略强化学习算法训练的代理程序。发现显示，辅助任务的表示学习对于维度和复杂度较高的环境是有利的，并且学习环境动态性胜于预测奖励。我们相信这些洞察将使其他研究人员能够更明智地决定如何利用表示学习解决他们的特定问题。

Oct, 2023

自我预测表示法的数据有效强化学习

本文提出了自回归表示 (Self-Predictive Representations, SPR) 方法，使用深度强化学习方法，并结合自监督目标和对视觉输入和与环境的交互结构的预测，提高了代理器的学习效率，并在 Atari 游戏中显著提高了性能。

Jul, 2020

连接状态与历史表征：理解自预测强化学习

深度强化学习的关键是表示方法，这篇论文揭示了多种表示学习方法和理论框架之间的共同性，特别是基于自预测抽象的思想，并给出了学习自预测表示方法的最简算法和实用指南。

Jan, 2024

具有预测处理相邻策略优化的高效深度强化学习

人类的大脑通过预测性处理的方式，以较小的资源实现了有效的控制策略，该研究利用预测性处理理论，建立了一个可以预测自身感观状态的循环神经网络模型在强化学习中的应用，并证明该模型在多个游戏中的表现，优于同等时间内的其他同类模型以及人类玩家。

Nov, 2022

心理模拟的神经基础：动态场景潜在表征的未来预测

通过构建多种感知认知网络模型预测复杂的动态环境，研究发现灵长类动物的神经机制和行为模式与未来在动态可重用视觉表达上的预测最为一致。

May, 2023

深度强化学习和信息最大化学习

本文介绍了一种基于 Deep InfoMax (DIM) 的训练方法，目的是让模型预测未来状态，从而提高处理强化学习问题的性能。测试表明，这种方法在多个人工场景中学到了预测未来状态的表示，并应用于 C51 模型中，在连续学习任务和 Procgen 环境中实现了性能提升。

Jun, 2020