关键词continual reinforcement learning
搜索结果 - 12
- 数据高效无线网络优化的持续模型强化学习
通过持续强化学习控制策略,我们设计了一种方法来解决在新的无线网络站点部署单元级参数优化策略所需的长时间延迟问题。仿真结果显示,与重新初始化和重新训练的基线相比,所提出的系统能够在不减少优化效益的情况下缩短端到端部署时间。
- 重置与精炼:克服连续强化学习中的负迁移的方法
通过实验证明 CRL 中的负迁移问题无法通过最近的一些减轻 RL 损失的研究成果来有效解决,所以我们提出了 Reset & Distill (R&D) 方法来克服 CRL 中的负迁移问题,该方法通过重置代理的在线演员和评论网络以学习新任务, - Hi-Core:层次化知识迁移用于连续性强化学习
Hi-Core 是一个新颖框架,用于在连续强化学习中增强高层次的知识传递,并通过大型语言模型(LLM)进行目标设置和低层次策略学习,并通过知识库存储策略实现层次化知识传递,实验证明其在处理多样化 CRL 任务上的有效性优于常见的基线模型。
- 连续强化学习中的预测与控制
本文提出了将值函数分解为两个组成部分的方法,分别在不同的时间尺度上更新,其中永久性值函数持有随时间持久存在的一般知识,而短暂性值函数允许快速适应新情况,理论结果表明这种方法非常适用于连续学习,并与神经科学中的互补学习系统(CLS)理论建立了 - 增强回放的连续强化学习
RECALL 是一种重播增强方法,通过自适应规范化和旧任务的策略蒸馏,在新任务上增强普适性和稳定性,从而显著改善持续强化学习中灾难性遗忘的问题。在 Continual World 基准测试中,RECALL 的性能明显优于纯粹的完美记忆重播, - 持续强化学习的定义
我们在这篇论文中开发了一个持续强化学习的基础。
- 潜在世界模型对于连续强化学习的惊人有效性
本文研究了基于模型的强化学习方法,特别是对于持续强化学习的世界模型的应用。结论表明,使用世界模型是一种简单且有效的持续强化学习基准。
- 渐进上下文动态自适应连续强化学习
本文提出一种基于动态自适应的连续强化学习框架 DaCoRL,采用渐进式上下文建模来对动态环境中的任务进行聚类,利用可扩展多头神经网络来逼近策略,同时借助在线贝叶斯聚类技术精确地分类当前任务并实例化所需的新上下文。在多个机器人导航任务和 Mu - Avalanche RL: 一个连续强化学习库
本文提出的 Avalanche RL 是一个用于 Continual Reinforcement Learning 的库,基于 PyTorch,支持任何 OpenAI Gym 环境。我们还推出了 Continual Habitat-Lab, - CORA: 连续强化学习智能体平台的基准、基线和度量标准
本文介绍了 CORA 平台,该平台针对 Continual Reinforcement Learning 智能体提供了基准、基线和度量标准,其中基准旨在评估连续 RL 挑战的不同方面,而度量标准提供连续评估、隔离遗忘和零射前传递。同时,该平 - 迈向持续强化学习:综述与展望
本文综述了关于非不变 RL(Lifelong 或非平稳 RL)的不同公式和方法的文献,提出了连续 RL 公式的分类法,并提供了连续 RL 方法的分类。此外,我们讨论了评估连续 RL 代理的重要度量和开放性问题,并强调了这方面的研究前景。
- DisCoRL: 基于策略蒸馏的连续强化学习
本文提出了 DisCoRL 方法,该方法结合状态表示学习和策略蒸馏来解决多任务强化学习中的挑战,并在三个 2D 导航任务上进行了实验验证。