自我确认变压器:多智能体强化学习中本地一致的在线适应
通过比较决策 Transformer(DT)和基于演员 - 评论者结构与经验回放的现有方法,我们研究了连续离线强化学习(CORL)框架中的 DT,发现 DT 在学习效率、分布转移缓解和零 - shot 泛化方面具有优势,但在监督参数更新时会加剧遗忘问题,我们引入多头 DT(MH-DT)和低秩自适应 DT(LoRA-DT)以减轻 DT 的遗忘问题。在 MoJuCo 和 Meta-World 基准上的广泛实验表明,我们的方法优于现有的 CORL 基准,在增强学习能力和内存效率方面展示出卓越的性能。
Jan, 2024
离线演员 - 评论家强化学习能够扩展到大规模模型(如变压器)并遵循监督学习的相似扩展规律。我们发现,离线演员 - 评论家算法在 132 个连续控制任务的大型数据集上的多任务训练中,能够优于强大的监督式行为克隆基线。我们引入了一种基于感知机的离线演员 - 评论家模型,并阐明了使离线强化学习与自注意力和跨注意力模块配合工作的关键模型特征。总体而言,我们发现:i)简单的离线演员评论家算法是逐渐摆脱当前主导的行为克隆范式的自然选择,ii)通过离线强化学习,可以从次优示范或自生成数据中学习掌握多个领域的多任务策略,包括真实的机器人任务。
Feb, 2024
离线强化学习以多目标优化问题的形式重新定义为序列建模任务,引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制,达到或超过当前最先进方法的性能。
Aug, 2023
基于 Transformer 的在线继续学习方法,利用其在上下文学习和元学习方面的潜力,结合重放机制以实现快速自适应和持续长期改进,在图像地理定位等任务上展示了显著的改进。
Mar, 2024
本文提出了一种名为 Bootstrapped Transformer 的新算法,将 bootstrapping 思想和模型自我生成更多离线数据相结合,进一步提高序列模型训练的效果,该方法在两个离线 RL 基准测试中均取得了优于其他强基线方法的效果,并分析其生成的伪数据所展示出的特点可能会对离线 RL 训练产生启示。
Jun, 2022
为了解决多智能体强化学习中的可扩展性和非稳态性问题,我们提出了一种新的多智能体世界模型,通过学习分散的局部动力学来实现可扩展性,并通过中心化表示的聚合来解决非稳态性问题。我们引入了 Perceiver Transformer 作为一种有效的解决方案,通过 Transformer 体系结构对复杂的局部动力学进行建模,从而提供准确而一致的长期想象。在 Starcraft Multi-Agent Challenge(SMAC)上的结果显示,该模型在样本效率和整体性能方面优于强化学习和现有的基于模型的方法。
Jun, 2024
该研究论文通过理论框架分析了用于 ICRL 的监督预训练 transformer 模型,提出了两种训练方法并证明了其能近似实现专家算法,同时证明了 ReLu 注意力的 transformer 能高效地近似最优在线强化学习算法,这为离线轨迹预训练的 transformer 模型的 ICRL 能力提供了首次量化分析。
Oct, 2023
该研究探讨了将大型语言模型与离线喜好数据进行对齐的挑战,在特别关注强化学习从人类反馈中对齐的条件下。我们提出了一个新的离线偏好优化方法 SPAC,它通过自我对战来实现,灵感来自离线强化学习领域的平均悲观技术,将是第一个可证明且可扩展用于大规模应用的 LLM 对齐方法。我们在一款具有 Open LLM Leaderboard 评估的 7B Mistral 模型上对其收敛性进行了理论分析,并展示了其具有竞争性的实证性能。
Jun, 2024
该论文研究了如何从离线数据集中学习到一个安全政策,提出了一种多目标优化的方法,并通过 “ε- 可减” 向量量化了问题难度,发现在安全性和任务性能之间存在平衡,于是提出了一种 “受限决策 Transformer” 方法并进行了实验,结果表明我们的方法比其他方法在各种任务中都表现出更好更安全和更高的效益。
Feb, 2023