使用调制掩码的终身强化学习

Dec, 2022

Lifelong Reinforcement Learning with Modulating Masks

Eseoghene Ben-Iwhiwhu, Saptarshi Nath, Praveen K. Pilly, Soheil Kolouri, Andrea Soltoggio

TL;DR该研究论文介绍了在深度强化学习中运用调制掩蔽技术解决任务交叉影响和对抗遗忘等问题的方法，并提出一种利用预先学到的知识来学习新任务的线性组合方案，在离散和连续强化学习任务中实现了优异的性能。

Abstract

lifelong learning aims to create ai systems that continuously and incrementally learn during a lifetime, similar to biological learning. Attempts so far have met problems, including catastrophic forgetting, inter

lifelong learning ai systems incremental learning reinforcement learning modulating masks

发现论文，激发创造

通过模块化掩码共享终身强化学习知识

本研究研究了分布式系统中具有终身学习能力的代理如何分享知识，在需要时通过有效的通信接口以互相交流知识，并通过实验表明在强化学习中实现分布式终身学习的有效方法是通过调节蒙版提取特定任务知识并以此交换，该系统对连接断开非常稳定，因此能够快速学习。

May, 2023

作为终身学习现实场景的持续协调

本研究提出了一个基于 Hanabi 的多智能体生涯学习测试平台，研究了最新的多智能体强化学习算法，对限制的内存和计算权衡性能以及对超量训练预测的影响，证明了我们的代理可以在没有任何其他假设的情况下良好地与未见代理协调。

Mar, 2021

排除无关因素：通过连续动作屏蔽集中增强学习

本研究论文中，我们提出了三种连续动作屏蔽方法，以精确地将动作空间映射到与状态相关的相关动作集合，从而确保只有相关动作被执行，提高增强学习代理的可预测性，并使其在安全关键应用中得到应用。实验结果显示，这三种动作屏蔽方法比没有动作屏蔽的基线方法能够获得更高的最终奖励并更快地收敛。

Jun, 2024

基于神经组合的模块化终身强化学习

本文提出了一种基于神经模块的组成式学习方式，探讨了在连续强化学习模型下的可重复利用子问题解决方案，并且通过离线重放经验保持表现以加速未来任务学习的累积神经组件复合持续强化学习方法。

Jul, 2022

实时策略游戏综合终身强化学习智能体系统设计

本文介绍了 L2RLCF 框架以及通过 Starcraft-2 小游戏实现不同组件的整合，从而实现连续学习的能力并进行全面客观的比较。

Dec, 2022

使用脑启发的调制强化学习可以提高对环境变化的适应能力

研究提出了一种新的神经元学习规则，它使用突触前输入来调制预测误差，将其嵌入表格和深度 Q 网络强化学习算法中，可以在简单而高动态的任务中胜过传统算法，这提出了一种新的生物智能核心原则。

May, 2022

自适应掩码的保持决策转换器用于基于强化学习的推荐系统

通过采用自适应遮蔽配置进行序列决策建模，以及引入多尺度分段保留机制以提高计算效率，我们提出了一种新的离线强化学习推荐系统方法，该方法在在线模拟器和离线数据集上的实验分析中明显展示了其优势。

Mar, 2024

终身生成建模

本文介绍了一种基于学生 - 教师 VAE 架构的无监督生成建模的终身学习方法，通过引入一种新的跨模型正则化器，以减少神经网络在连续学习情况下面临的灾难性干扰，并在多个数据集上验证了其性能。

May, 2017

循环强化学习：一种混合方法

本文研究了一种深度学习方法，将强化学习和监督学习结合，通过长短时记忆网络对隐藏状态的表示进行学习，在部分可观测任务中表现出了很好的性能。

Sep, 2015

利用分布专家进行终身语言预训练

本文提出了 Lifelong-MoE，一种基于扩展的 MoE（Expansive Mixture-of-Experts）架构的 Lifelong Learning 方法，其具有更好的 few-shot 性能，可以对大规模语料进行更好的预训练，适应不同的下游任务。

May, 2023