连续离线强化学习的离线经验回放
通过比较决策 Transformer(DT)和基于演员 - 评论者结构与经验回放的现有方法,我们研究了连续离线强化学习(CORL)框架中的 DT,发现 DT 在学习效率、分布转移缓解和零 - shot 泛化方面具有优势,但在监督参数更新时会加剧遗忘问题,我们引入多头 DT(MH-DT)和低秩自适应 DT(LoRA-DT)以减轻 DT 的遗忘问题。在 MoJuCo 和 Meta-World 基准上的广泛实验表明,我们的方法优于现有的 CORL 基准,在增强学习能力和内存效率方面展示出卓越的性能。
Jan, 2024
本研究提出了一种新的算法,名为基于经验回放的集成离线强化学习,通过引入多个值网络来学习相同的数据集,并通过值网络的离散程度判断策略是否已经学习,以提高单任务离线强化学习网络的性能。
Apr, 2024
本研究提出了一种基于强化经验回放的连续学习方法,通过使用当前训练数据模仿未来经验,以及蒸馏内存缓冲区的过去经验,来提高模型的预测一致性,从而有效保留已获得的知识。实验结果表明,我们的方法在多个图像分类数据集上优于现有方法。
May, 2023
RECALL 是一种重播增强方法,通过自适应规范化和旧任务的策略蒸馏,在新任务上增强普适性和稳定性,从而显著改善持续强化学习中灾难性遗忘的问题。在 Continual World 基准测试中,RECALL 的性能明显优于纯粹的完美记忆重播,与最先进的持续学习方法相比,整体性能相当甚至更好。
Nov, 2023
我们研究了连续离线强化学习,这是一种实用的范例,用于前向转移和减轻灾难性遗忘,以应对顺序离线任务。我们提出了一种双生成重播框架,通过同时重播生成的伪数据来保留先前的知识。我们将连续学习策略解耦为基于扩散的生成行为模型和多头行动评估模型,使策略能够继承分布表达能力,以包含逐步丰富的多样行为范围。通过训练一个任务条件的扩散模型来模拟过去任务的状态分布,生成的状态与行为生成器对应的回应配对,以高保真度回放样本来表示旧任务。最后,通过将伪样本与新任务的真样本交错,不断更新状态和行为生成器,以逐步多样化的行为建模,并通过行为克隆对多头评论者进行正则化,以减轻遗忘。实验证明,我们的方法在前向转移方面取得了更好的效果并且由于其高保真度的样本重放,与使用以前的真实数据近似的结果。
Apr, 2024
提出了一种新的经验回放优化 (ERO) 框架来优化累积奖励,此方案交替更新两种策略:代理策略和回放策略,其中代理策略基于回放数据最大化累积奖励,而回放策略则提供代理经验最有用的经验,实验表明,此方案可以改进离线策略强化学习算法的性能。
Jun, 2019
本研究提出了基于模型的离线强化学习算法 MOReL,具有模块化设计,可以用于模型生成、不确定性估计、规划等领域,实验结果表明,MOReL 能够达到或超过当前广泛研究的离线强化学习基准的最新结果。
May, 2020
本研究提出了在线对比散度与生成回放 (OCD_GR) 方法,利用受限玻尔兹曼机 (RBM) 的生成能力来解决经验重放 (ER) 所带来的存储复杂度问题。在 9 个真实数据集上的实验结果显示,在 64.28% 的测试中,OCD_GR 方法表现优于 ER 方法,在 35.72% 的测试中,OCD_GR 表现相当,具有显著降低存储复杂度的优势。
Oct, 2016
将 Remember and Forget for Experience Replay(ReF-ER)算法扩展到了多智能体强化学习(MARL)领域,并在 Stanford Intelligent Systems Laboratory(SISL)环境中的对比实验中证明,采用单级前馈神经网络模型实现 ReF-ER MARL 算法,其性能表现优于现有复杂神经网络架构的算法。
Mar, 2022