- CUER:适用于离策略连续深度强化学习算法的修正统一体验重播
本文提出了一种新算法 CUER,该算法在考虑所有其他经验的公平性的同时,通过使采样状态分布更接近于策略,以解决经验回放中转换重要性动态调整的问题,从而在样本效率、最终性能和训练期间策略的稳定性方面显著提高离策略连续控制算法。
- 从单一视频流在线连续学习视频扩散模型
本研究介绍了通过在连续视频流中训练扩散模型的可行性,并通过引入两个新的持续视频生成建模基准数据集 —— 终身弹跳球和 Windows 95 迷宫屏幕保护程序,证明了扩散模型可以通过经验重放在线有效地训练,其性能与使用相同梯度步数训练的独立同 - RL 代理体验的影响因素:高效估计经验的影响
本文介绍了一种高效估计经验影响的方法,Policy Iteration with Turn-over Dropout (PIToD),并应用于改进表现不佳的强化学习代理,通过估计负面有影响的经验并删除它们的影响,显著提高了代理的性能。
- 单任务持续离线强化学习
本研究提出了一种新的算法,名为基于经验回放的集成离线强化学习,通过引入多个值网络来学习相同的数据集,并通过值网络的离散程度判断策略是否已经学习,以提高单任务离线强化学习网络的性能。
- 重访可回放体验条件
经验重播 (ER) 在深度强化学习中被认为只适用于离策略算法,然而也有一些案例表明 ER 已被应用于策略算法,表明离策略特性可能是应用 ER 的一个充分条件。本文重新考虑了更严格的 “经验重播条件”(ERC),并提出了修改现有算法以满足 E - 分层近端回放:一种用于在线连续学习的近端点方法
在在线连续学习中,通过经验重放防止灾难性遗忘和过拟合的神经网络优化过程可能出现不稳定的轨迹,我们提出了一种解决方案 —— 分层近似重放 (LPR),通过优化几何图形,平衡新数据和重放数据的学习,但仅允许对过去数据的隐藏激活进行逐渐变化,我们 - 使用决策 Transformer 解决持续离线强化学习
通过比较决策 Transformer(DT)和基于演员 - 评论者结构与经验回放的现有方法,我们研究了连续离线强化学习(CORL)框架中的 DT,发现 DT 在学习效率、分布转移缓解和零 - shot 泛化方面具有优势,但在监督参数更新时会 - 少样本持续主动学习的学习模型
我们提出了一种称为元持续主动学习的简单而高效的方法,通过使用元学习和经验回放来在解决以前见过的任务时实现稳定性,并在新领域中展现出可塑性。我们的实验结果表明,在解决少样本持续主动学习问题时,随机采样是最好的默认策略,无论是在主动学习还是记忆 - 回溯重现:面向德语语音识别的层特定细调连续学习
本文探讨了使用自适应域转移技术将大规模自然语言模型应用于新领域的适应性,并使用经验回放来提高语音识别系统的鲁棒性。实验结果表明,即使只添加少量的数据集,系统的识别错误率可以降至 5%以下。
- 经验回放的时间差分学习
本文介绍了一种关于 Temporal-difference (TD) 学习与经验重放的算法,并提出了对其有限时间和误差控制的方法。
- 克服连续学习中的稳定性差距
通过经验重放,研究深度神经网络在持续学习中稳定性差的问题,发现一种能极大减少性能下降的方法,从而实现更高效率的学习。
- 连续离线强化学习的离线经验回放
本文提出基于模型的经验选择方案以解决离线强化学习中的经验回放问题和遗忘问题,并进行了实验验证。
- 强化经验重放的连续学习
本研究提出了一种基于强化经验回放的连续学习方法,通过使用当前训练数据模仿未来经验,以及蒸馏内存缓冲区的过去经验,来提高模型的预测一致性,从而有效保留已获得的知识。实验结果表明,我们的方法在多个图像分类数据集上优于现有方法。
- 探究扩散模型的持续学习
本研究评估扩散模型的连续学习特性,通过给 Denoising Diffusion Probabilistic Models (DDPMs)应用经验重放,发现一定程度的遗忘可以被减少,但在扩散步数上,其表现多种多样。同时揭示使用 bits-p - 最终折扣时序逻辑反事实经验重播
通过使用可期折扣技术的价值函数代理来找到最大概率满足 LTL 规范的策略,以及通过对不同满足 LTL 规范的方法进行反事实推理来生成脱离政策的数据的新体验重演方法,该论文在离散和连续状态操作空间中进行的实验证实了反事实经验回放方法的有效性。
- MAC-PO: 基于集体优先级优化的多智能体经验回放
通过优化采样权重,将优先经验回放应用于多智能体强化学习 (MARL) 中,以最小化策略遗憾并获得更好的优先级方案,提高训练效率并在实验中表现出良好的效果。
- 理解每步回放不同数量的影响
本研究从经验重放和模型的角度出发,对 Deep Q-Network 算法中回放量的变化对样本效率和算法健壮性的影响进行了系统性研究,在 Mountain Car 环境下获得了提高样本效率、降低性能波动、提高算法鲁棒性的结果,为算法应用方面提 - 优先离线目标交换经验回放
本文提出了一种基于优先级的目标交换经验回放算法,并应用于离线强化学习中,用于解决先前数据量不足的问题,实验结果表明该算法在多项基准任务中有着显著的提高。
- ICML冰与火之歌:分析 "科学世界" 中的文本自传递代理
本文研究了基于自主目标选择和组织学习计划框架下,语言对于自主学习的重要性,提出了三个开放式科学问题:社交互动中反事实反馈的影响,学习过程中来自稀有语言目标的重采样,以及多种探索方式的结合。通过实验表明,社交互动中反事实反馈的精选对自主学习结 - 哪些经历对您的代理有影响?具有离职随机删除的政策迭代
本文提出了 PI+ToD 方法来有效地评估经验的影响,该方法利用 Turn-Over Dropout 达到效率,实验结果表明其在 MuJoCo 环境中表现优秀。