- 基于深度强化学习的多智能体通信与协作决策研究
本篇论文基于 CTDE 框架,研究基于 MAPPO 算法的多智能体合作决策,并引入了基于权重调度和注意力机制的多智能体通信机制以缓解多智能体环境中的非稳定性。提出了 MCGOPPO 算法,并在 SMAC 和 MPE 上进行了实验,结果表明此 - 持续深度强化学习中的可塑性丧失
探讨在 Atari 2600 游戏环境中使用基于价值的强化学习方法在面对不同程度的非随机性(non-stationarity)时,其所采用的策略的丧失学习能力现象,通过对不同维度条件下的实验结果,发现这种现象与网络中激活函数的稀疏性相关,本 - 面向行为相关非平稳环境的离线评估
本论文提出了一种算法 OPEN,它可以在系统状态的积极、消极或混合非稳态变化的情况下预测未来绩效,其基础是双重应用反事实推理和一种新的重要性加权工具变量回归。
- 非平稳空间建模
该论文提出了一种空间模型,可以允许空间依赖结构随着位置的变化而变化,并开发了一种分层模型,可以将这种不确定性纳入结果推理中,该方法已应用于有毒废物处理领域。
- AAAI非平稳风险敏感强化学习:近似最优动态遗憾、自适应检测和分离设计
研究使用熵风险度量在非平稳有限马尔可夫决策过程中采用风险敏感强化学习,提出了两种基于重启的算法以及自适应检测不稳定性的元算法,并证明了算法的动态后悔下界。该研究为文献中的非平稳风险敏感强化学习提供了首个非渐近理论分析。
- MM自适应实验设计与反事实推断
本文讨论了使用自适应实验设计方法在非稳态的工业环境下进行实验的挑战和陷阱,提供了在这些环境中的正确目标和系统规格的不同观点,并基于这些经验开发了一个自适应实验设计框架用于对照推断,并在商业环境中进行了测试。
- MM可解释的序列优化的动态内存
本论文提出了一种基于自适应贝叶斯学习的代理学习算法来解决强化学习中不稳定情况下的记忆流失问题,并通过统计假设检验实现了可解释性,表现良好。
- ICLR理解和防止增强学习中的能力损失
本文研究深度强化学习中的一种现象 —— 容量丧失,提出 Initial Feature Regularization(InFeR)算法,该算法可以有效缓解容量丧失并显著提高稀疏奖励任务中的性能表现。
- 非静态强化学习的因素自适应
提出了一种基于因果图和分解的自适应方法(Factored Adaptation for Non-Stationary RL, FANS-RL),可用于 Reinforcement Learning(RL)中的非静态环境和目标建模,能够学习到 - AAAI非平稳目标和约束的可证明高效原始 - 对偶强化学习在 CMDPs 中的应用
本文研究了具有不稳定目标和约束的约束马尔可夫决策过程的原始 - 对偶强化学习,并提出了具有安全性和适应性的时间变化中安全的 RL 算法,同时建立了动态遗憾界和约束违规界。
- 时变系统中强化学习的揭秘
探索如何通过一个稳健的框架解决非稳态环境下的强化学习问题,其中该框架通过识别不同的环境、触发探索、将先前环境的知识保留下来以及保护系统性能来训练 RL agent,并且在解决一些系统问题时进行了验证。
- 稳定的多智能体交互影响力研究
该研究探讨如何通过学习其他机器人的策略,以及动态模型的帮助,定义一个无监督的稳定奖励来影响其他机器人的策略以实现稳定,并展示了其在自动驾驶、紧急通信和机器人操作等方面的有效性。
- IJCAI跟踪任务非稳态性的元强化学习
提出了一种基于元学习和显式跟踪任务演化的新算法(TRIO),该方法在训练期间通过学习变分模块和探索策略来识别潜在参数以快速适应相关任务,并在测试期间通过在线跟踪潜在参数来减少当前和未来任务的不确定性。
- ICLR通过信任区域分解应对 MARL 中的非平稳性
本文提出一个名为 TRD-Net 的模型和基于其的 MAMT 算法,通过控制联合策略的变化,减轻非平稳性问题,此方法稳定性及性能比基线模型更好。
- 迈向持续强化学习:综述与展望
本文综述了关于非不变 RL(Lifelong 或非平稳 RL)的不同公式和方法的文献,提出了连续 RL 公式的分类法,并提供了连续 RL 方法的分类。此外,我们讨论了评估连续 RL 代理的重要度量和开放性问题,并强调了这方面的研究前景。
- 非定常线性马尔可夫决策过程中的高效学习
本研究提出了一种基于权重最小二乘值迭代的非稳态线性马尔可夫决策过程(MDP)最优模型 - free 算法 OPT-WLSVI,使用指数权重平滑地遗忘过去的数据,与先前的研究相比解决了遗忘策略上的技术差距,并分析了与最佳策略竞争的总遗憾是有上 - 针对非稳态 MDPs 的安全策略改进
为了确保在具有高风险影响的平稳变化的非稳态决策问题上的安全性和高置信度,本文提出了一种方法,该方法通过模型自由强化学习与时间序列分析的综合,将一种称为 Seldonian algorithm 的安全算法扩展。
- 深度强化学习中的瞬态非平稳性和泛化
该论文探讨了强化学习中非稳态性的问题,提出了一个名为 ITER 的算法来改善深度强化学习的性能,通过该算法将当前的策略知识重复迁移到一个新的网络中,从而减少非稳态性对训练的影响。实验证明,该方法有效地提高了深度强化学习的泛化性能。
- AAAI对手学习建模的学习
提出了一种名为 LeMOL 的对手学习动态建模方法,该方法用于结构化对手建模,以通过学习对手的适应和学习行为来降低策略搜索算法中的方差,从而提高多代理系统中算法代理的性能。
- ICML非平稳 MDPs 中的未来优化
本文介绍了一种名为 Prognosticator 的策略梯度算法,这种算法通过对政策性能的预测来主动搜索一个好的未来策略,并且通过将过去数据进行非均匀重新赋权,使该算法比其他两种在线适应技术更具鲁棒性。