多智能体基于时间对比学习的迁移学习

Jun, 2024

多智能体基于时间对比学习的迁移学习

Multi-Agent Transfer Learning via Temporal Contrastive Learning

Weihao Zeng, Joseph Campbell, Simon Stepputtis, Katia Sycara

TL;DR该研究介绍了一个用于深度多智能体强化学习的新型迁移学习框架。该方法通过自动组合目标条件策略和时间对比学习，发现有意义的子目标。实验证明，该方法在多智能体协调任务 Overcooked 上能够提高样本效率，解决稀疏奖励和长期规划问题，并且相比基准方法具有更高的可解释性。与最先进的基准方法相比，我们的方法只需要原来的 21.7% 的训练样本就能达到相同或更好的性能。

Abstract

This paper introduces a novel transfer learning framework for deep multi-agent reinforcement learning. The approach automatically combines goal-conditioned policies with →

transfer learning deep multi-agent reinforcement learning goal-conditioned policies temporal contrastive learning sub-goals

发现论文，激发创造

对比时空抽象概括和比较代理动态

本文提出了一种数据驱动、模型无关的技术，用于生成一个易于人理解的摘要，概括一个演变动力系统（如控制代理的学习过程）中的显著对比要点。该技术根据信息论差异度沿时间和空间维度对转换数据进行聚合，并以图形和文本通信方法为辅助，对连续状态空间下的深度强化学习代理的学习历史进行摘要。我们期望我们的方法能够补充现有的代理可解释性技术。

Jan, 2022

具有时间注意力的对比模块的多任务强化学习

本文提出了一种称为对比模块与时间注意力（CMTA）的方法，通过对比学习同时结合细粒度的共享模块和时间注意力来解决现有多任务强化学习方法所存在的限制。CMTA 方法能够在任务内减少负迁移，提高模块化方法的泛化能力和性能，在 Meta-World 数据集上的实验结果表明 CMTA 优于单独学习每个任务，并在基准上取得了显著的性能改进。

Nov, 2023

对比差异预测编码

本文介绍了一种自适应时间差异版对比性预测编码，通过拼接不同时间序列数据的片段来减少学习未来事件预测所需的数据量，并将该方法应用于推导目标条件强化学习的离线策略算法。实验表明，与先前的强化学习方法相比，我们的方法在成功率方面取得了 2 倍的中值提高，能够更好地应对随机环境。在表格设置中，我们展示了我们的方法比后续表示方法更节约样本，比标准（蒙特卡洛）版本的对比性预测编码更节约样本数量约 20 倍和 1500 倍。

Oct, 2023

TCLR: 视频表征的时序对比学习

本研究提出了一种新的时间对比学习框架，采用两个新的损失函数以提高现有自监督视频表示学习方法的性能，其中局部 - 局部时间对比损失和全局 - 局部时间对比损失实现了在各种下游视频理解任务中的显着改进。

Jan, 2021

自适应策略转移的高效深度强化学习

本研究提出了一种名为 “Policy Transfer Framework” 的框架，该框架采用多策略转移方式对强化学习中的目标策略进行直接优化，可以很方便地与现有的深度强化学习方法相结合，实验结果表明，该框架明显加速了学习过程，并在离散和连续动作空间中超越了现有的策略转移方法，具有较高的学习效率和最终性能。

Feb, 2020

基于对比学习的深度强化学习中的代理建模

多代理系统中，对智能机器代理进行适应性策略设计时，代理建模是至关重要的，通过代理建模可以理解其他代理的行为并提取有意义的策略表示，为增强自我代理的适应性策略提供帮助。这篇研究以对比学习为基础的代理建模方法（CLAM）只依赖于自我代理在训练和执行过程中的局部观察，可以实时生成一致且高质量的策略表示，且在合作和竞争多代理环境中取得了最先进的结果，突显了对比学习为基础的代理建模在增强式学习中的潜力。

Dec, 2023

基于时序和潜变量的对比损失的视觉强化学习方法：TACO

本文介绍了一种名为 TACO 的时间驱动对比学习方法，通过优化当前状态与行动序列表示和相应未来状态表示之间的相互信息，同时学习状态和行动表示，并在深度强化学习的多个方面上实现了性能提升。

Jun, 2023

自适应增强对比的时态图表示学习

提出了一种新颖的 Temporal Graph representation learning with Adaptive augmentation Contrastive (TGAC) 模型，该模型通过将先验知识与时间信息相结合，对时态图进行自适应增强，并通过定义增强之间的相互视角对比和内部视角对比来构建对比目标函数，以减少网络中的噪声。广泛的实验证明，该模型优于其他时态图表示学习方法。

Nov, 2023

Actor-Mimic: 深度多任务和转移强化学习

本研究提出了一种名为 “Actor-Mimic” 的多任务学习和迁移学习方法，通过深度强化学习和模型压缩技术来训练一个单一的策略网络，并通过多个专家教师的指导来学习在不同任务中的行为，并使用先前的知识解决新任务。研究结果表明，该方法的表征能力可以通过无先验的专家指导来推广到新的任务并加速学习。本方法可以应用于多样的问题，为了说明其效果，我们在 Atari 游戏上进行了测试。

Nov, 2015

在潜空间中通过组合目标实现高效在线微调

本文提出了一种名为 Planning to Practice（PTP）的方法，旨在解决普适性机器人面临的目标达成困难和训练代价高的问题，通过分解目标化问题和离线增强学习与在线探索相结合的方法，实现对复杂任务的有效训练和解决。

May, 2022