- 高效经验回放的事件表
介绍了使用基于事件表格的分层采样(SSET)方法,该方法将经验回放缓冲区划分为事件表格,每个表格都捕获了优化行为的重要子序列,在 MiniGrid 领域、基准 RL 环境和高保真度赛车模拟器中进行的实证研究表明,相较于现有的 ER 缓冲区采 - 持续学习中的一致性是进一步减轻灾难性遗忘的关键
通过在 Experience Replay 框架中引入一致性正则化方法,将其作为自监督前提任务,并在各种连续学习场景下进行研究。结果表明,相对严格的一致性约束可以更好地保留以前任务的信息。
- ICML使用线性结构稳定 Q 学习,以实现证明有效的学习
本文讨论了 $Q$-learning 算法的不稳定性问题,提出了一种基于探索的改进方案。该算法通过结合二阶更新,目标网络等机制,实现了线性 MDPs 的最新遗憾界限,并且算法设计独立于时间步长。此外,该算法表现出一定的实例依赖性,并且在近似 - 在线连续学习中减少突变表示变化的新见解
本研究提出了一种基于经验回放的在线连续学习方法,该方法使用不对称更新规则,使得新类别能够更好地适应先前观察到的类别,并在标准连续学习基准测试中获得显著的性能提升。
- 在线目标 Q 学习与倒置经验回放:高效找到线性 MDP 的最优策略
本文研究了在强化学习中常用的 Q-learning 算法,在理论和实践之间的差距,并提出了两种改进方法,分别为 Q-Rex 和 Q-RexDaRe,这两个方法能够更有效地找到线性马尔科夫决策过程的最佳策略并提供了采样复杂度的非渐近界限。
- ICML大批次经验回放
本文将回放缓冲区采样问题看作梯度估计的重要采样问题,并提出了一种新的采样方案 LaBER,与 DQN、分布式 RL 和 actor-critic 方法相结合,能够在 Atari 游戏和 PyBullet 环境中提供比其他优先级方案更好的性能 - 检测和持续学习新的人脸展示攻击
本文介绍了一种使用经验回放的深度学习方法,以检测面部攻击中从未遇到过的新类型攻击,并自适应地识别这些攻击类型,证明其在两个基准数据集和一个新引入的数据集上的有效性。
- ICCV连续神经映射:从序列观测中学习隐式场景表示
本文介绍了一种基于神经网络的连续场景表征学习方法,通过经验回放解决连续场景表征学习中遗忘和准确性的平衡问题。实验证明本方法能够连续地学习和表示场景几何特征。
- 深度强化学习的期望强调痕迹学习
本文研究将强化权重与非连续、离线数据相结合以提高样本效率,同时在 Atari 2600 电子游戏上测试了新的 X-ETD(n)算法,证明了其可扩展性和广泛适用性。
- ICLR在线持续学习中减少突然表征变化的新见解
研究在线持续学习范式下,使用经验回放(ER)对抗内存与计算约束时,新添加的类别在 ER 下表示的变化,通过实证分析验证减轻高度干扰参数更新的新方法。该方法采用不对称更新规则,有利于在任务边界时避免遗忘。在标准持续学习基准测试中,与强基线方法 - 倒放体验回放的流式线性系统辨识
提出了一种基于流式数据的算法 SGD-RER,使用经验回放技术,利用数据依赖性结构分解和预测误差,以及线性系统辨识问题的第一阶段启发式算法,应用于更多的 LTI 识别设置和非线性动态系统中,并展示了利用数据依赖性结构设计统计和计算高效算法的 - CVPR选择性再学习在在线连续类比推理中增强学习
本文研究神经网络在类比推理方面的持续学习问题,通过采用经验重演缓解类比推理的数据流不稳定性所导致的灾难性遗忘问题,并发现选择性重演能够显著提升性能。
- 通过存储嵌入,提高视觉强化学习的计算效率
本论文提出了一种基于 Stored Embeddings for Efficient Reinforcement Learning (SEER) 的改进深度强化学习方法,以减少计算和内存要求,并且在 DeepMind Control 和 A - MM理解经验回放中的算法勾结
本研究探索人工智能定价算法在重复博弈中的表现,发现算法协作在人类行为偏好的影响下较为普遍,同时发现体验随机化、相对绩效影响和最新经验偏好都能增强算法协作,最后检测了不同因素下异质代理的表现和鲁棒性。
- Reverb:一种经验回放框架
介绍了一种用于强化学习中经验重演的高效、可扩展、易于使用的系统 Reverb,该系统的设计旨在适用于具有成千上万个并发客户端的分布式配置,并提供经验重演的核心设计和性能特征的实证结果。
- 重新思考经验回放:持续学习的技巧集
研究了当神经网络被培训在一个时间上变化的数据流时,其面临的 “灾难性遗忘” 问题。本文提出并实验了一种简单的 rehearsal-based 方法,即 Experience Replay,并证明其相对于现有的基于 rehearsal 的方法 - 大规模持续学习中重放记忆的有效性
本研究提出了一种新的压缩激活重放技术,以中间层激活的重放增强深度模型的正则化效果,它在大规模任务、分裂 - CIFAR 和分裂 - miniImageNet 数据集上均有显着效果。
- ICML体验回放的基础知识重新审视
本文通过系统的分析和研究体验回放在 Q-learning 方法中的两个基本性质:回放容量和学习更新与经验收集的比率(回放比),颠覆了关于经验回放的传统认识。同时,本文也测量了控制回放比的重要性,并对表现优秀的算法进行了一系列的测试。
- 使用无似然权重的经验回放
本文提出了一种基于稳态分布概率的重要性重排经验的 TD 学习方法,使用无需概率密度函数的估算器来指定优先级权重,将此方法应用于两种竞争性强的学习算法(软演员 - 评论家(SAC)和 Twin Delayed 深度确定性策略梯度(TD3)), - 带有马尔可夫数据的最小二乘回归:基本限制和算法
研究了最小二乘线性回归的问题,其中数据点依赖于并从马尔可夫链中采样。在不同的噪声设置下,建立了关于底层马尔可夫链混合时间 $\tau_{mix}$ 的尖锐信息理论极小值下界来解决此问题。我们发现,与独立数据的优化相比,具有马尔可夫数据的优化