基于模型无关生成回放的终身强化学习：以星际争霸 2 为例

Aug, 2022

基于模型无关生成回放的终身强化学习：以星际争霸 2 为例

Model-Free Generative Replay for Lifelong Reinforcement Learning: Application to Starcraft-2

Zachary Daniels, Aswin Raghavan, Jesse Hostetler, Abrar Rahman, Indranil Sur...

TL;DR本研究研究了三种 LRL 模型的生成式重演（GR）机制，提高了迁移学习等量化指标以及解决了忘却问题。通过实验结果表明，该机制在深度 RL 代理的潜藏向量空间内防止特征到行为映射发生漂移，缩小了训练样本数量，具有较高的实验价值。

Abstract

One approach to meet the challenges of deep lifelong reinforcement learning (LRL) is careful management of the agent's learning experiences, to learn (without forgetting) and build internal meta-models (of the tasks, environments, agents, and world). →

deep lifelong reinforcement learning generative replay introspective density modeling transfer learning catastrophic forgetting

发现论文，激发创造

基於生成回放的評論式學習方法

本研究提出了一种名为 Review Learning 的深度学习连续学习技术，使用神经突触权重中存储的记忆信息生成数据样本，并避免了在数据集转移学习中出现的灾难性遗忘现象，从而在保护数据隐私的前提下，提高了模型的性能表现。在使用三类二分类电子病历数据进行仿真和真实医疗多机构实验验证后，本文表明 Review Learning 能够高效保留之前学习的知识。

Oct, 2022

基于时间感知正则化的生成式经验回放的类增量学习

在严格的条件下，通过使用生成回放、模型大小控制、时态正则化等方法，本研究提出了一种脑启发式的持续学习方法，以解决累积学习中遗忘问题，并在重要基准测试中取得了较好的实验结果。

Oct, 2023

基于扩散双生成回放的连续离线强化学习

我们研究了连续离线强化学习，这是一种实用的范例，用于前向转移和减轻灾难性遗忘，以应对顺序离线任务。我们提出了一种双生成重播框架，通过同时重播生成的伪数据来保留先前的知识。我们将连续学习策略解耦为基于扩散的生成行为模型和多头行动评估模型，使策略能够继承分布表达能力，以包含逐步丰富的多样行为范围。通过训练一个任务条件的扩散模型来模拟过去任务的状态分布，生成的状态与行为生成器对应的回应配对，以高保真度回放样本来表示旧任务。最后，通过将伪样本与新任务的真样本交错，不断更新状态和行为生成器，以逐步多样化的行为建模，并通过行为克隆对多头评论者进行正则化，以减轻遗忘。实验证明，我们的方法在前向转移方面取得了更好的效果并且由于其高保真度的样本重放，与使用以前的真实数据近似的结果。

Apr, 2024

生成回放与反馈连接作为连续学习的通用策略

本文的主要研究方向是解决人工神经网络在学习新任务时会快速遗忘以前学到的任务而导致无法实现真正的生命周期学习的问题，该文提出了一种新的方法，即基于生成回放的连续学习方法，该方法可以在各种不同的场景下实现优异的性能表现。

Sep, 2018

t-DGR：一种基于轨迹的连续决策深度生成回放方法

深度生成回放在决策任务的连续学习中作为一种有希望的方法出现。本文提出了一种简单、可伸缩且非自回归的方法，使用生成模型根据轨迹时间步生成任务样本来解决遗忘问题，并在持续世界基准测试中达到了最先进的性能。

Jan, 2024

使用本地遗忘的回放缓冲器进行自适应深度模型强化学习

本文探讨了在深度强化学习中，如何使用改进后的 replay buffer 来解决 catastrophic forgetting 和 stale data 的问题，从而实现在环境变化时能够更加高效地应对。

Mar, 2023

深度生成回放的持续学习

本文提出一种新的深度学习框架 Deep Generative Replay 来解决在实现万能人工智能时的一个长期问题：灾难性遗忘。通过引入灵感于灵长类大脑海马体的短期记忆系统，在该框架中包含一个生成模型和一个任务求解模型，并在图像分类任务中进行了相关实验和测试。

May, 2017

理解每步回放不同数量的影响

本研究从经验重放和模型的角度出发，对 Deep Q-Network 算法中回放量的变化对样本效率和算法健壮性的影响进行了系统性研究，在 Mountain Car 环境下获得了提高样本效率、降低性能波动、提高算法鲁棒性的结果，为算法应用方面提供了新的思路。

Feb, 2023

星际争霸全程游戏的强化学习

本论文研究了适用于 StarCraft II 游戏的分层强化学习方法，其中包括宏动作、双层分层结构以及课程转移学习算法，取得了较好的游戏成绩并证明了其强泛化性能。

Sep, 2018

关于《星际争霸 Ⅱ》全游戏的高效强化学习研究

本研究通过使用一系列强化学习技术，包括层次化体系结构、课程转移学习和战斗模型等方法，在 StarCraft II 游戏上进行了训练，并获得了高胜率。我们还将我们的方法与 mini-AlphaStar 进行比较，证明了该方法的有效性。

Sep, 2022