ATraDiff:使用虚拟轨迹加速在线强化学习
该论文介绍了一种离线强化学习的方法,使用压缩的潜在技能建模支援轨迹序列,避免外推错误,并通过批量约束来学习 Q 函数。该方法通过学习的时间抽象潜在空间在离线强化学习任务中编码了更丰富的任务特定信息,改进了信用分配,并促进了更快的奖励传播。该方法在 D4RL 基准测试中表现出最先进的性能,特别擅长长期,稀疏奖励任务。
Sep, 2023
离线强化学习中,学到的策略性能高度依赖于离线数据集的质量。然而,在许多情况下,离线数据集只包含非常有限的最优轨迹,这对离线强化学习算法提出了挑战,因为智能体必须能够转移到高奖励区域。为了解决这个问题,我们引入了一种基于扩散的轨迹拼接(DiffStitch)方法,这是一种新颖的基于扩散的数据增强技术,能够在轨迹之间生成连接转移。DiffStitch 有效地连接了低奖励轨迹与高奖励轨迹,形成全局最优轨迹,以解决离线强化学习算法面临的挑战。在 D4RL 数据集上进行的实证实验表明 DiffStitch 在 RL 方法中的有效性。值得注意的是,DiffStitch 在一步方法(IQL)、模仿学习方法(TD3+BC)和轨迹优化方法(DT)的性能上有了显著提升。
Feb, 2024
基于数据增强的知识蒸馏方法提出,通过条件扩散模型生成高回报轨迹,并通过新的奖励生成器运用新颖的拼接算法将其与原始轨迹混合。将得到的数据集应用于行为克隆,学习到的规模较小的浅层策略在几个 D4RL 基准测试中表现优于或接近深度生成规划器。
Feb, 2024
本文提出 MADiff,一种基于关注力扩散模型的创新多智能体学习框架,用于模拟多智能体间的复杂协调,以发挥扩散的强大的生成能力。实验证明 MADiff 相比基线算法在各种多智能体学习任务中具有较高的性能。
May, 2023
通过使用多样的过去轨迹作为指导,而不是模仿它们,本文提出了一种方法,使得在线强化学习更快、更高效,即使这些轨迹是次优的或未获得高奖励;此外,引入了一种新的多样性度量来保持团队的多样性和调节探索。在离散和连续控制任务中评估了所提出的算法,与现有的强化学习方法相比,实验结果表明我们提出的算法在多样化探索和避免局部最优方面显著优于基准方法。
Feb, 2024
本文提出了一种基于任务的条件扩散规划器 (MetaDiffuser) 来解决离线 meta-RL 中通用性问题,该规划器可以生成针对任务的轨迹以在各种任务间进行规划。实验结果表明 MetaDiffuser 能够表现出优异的生成轨迹能力,优于其他离线 meta-RL 基线模型。
May, 2023
本文提出了一种基于 Transformers 和 prompt 学习的多任务扩散模型 MTDiff,利用扩散模型生成计划和数据合成,实现了跨不同多任务数据之间的隐式知识共享,并在 Meta-World 和 Maze2D 上的 50 个任务和 8 个地图中,达到了比现有算法更好的生成计划效果。
May, 2023
该研究提出了一种基于生成对抗性模型(TrajGAIL)的机器学习方法,使用生成建模方法学习城市车辆轨迹数据的潜在分布,从而能够生成与实际车辆轨迹相似的合成轨迹来解决数据稀疏性或数据隐私问题,并在模拟和现实数据集中得到显著的性能提升。
Jul, 2020
从稀疏观测数据中学习动力系统是许多领域(包括生物学、金融学和物理学)的一个关键问题。这篇论文介绍了一种将条件粒子滤波与祖先采样和扩散模型相结合的方法,能够生成与观测数据相符合的逼真轨迹。该方法基于迭代条件粒子滤波与祖先采样生成匹配观测边缘概率的合理轨迹,并学习相应的扩散模型。该方法既为复杂约束下高质量、平滑的轨迹提供了一种生成方法,又有效近似了粒子平滑分布在经典跟踪问题中。我们在时间序列生成和插值任务上展示了该方法,包括车辆追踪和单细胞 RNA 测序数据。
Jun, 2024