Sep, 2024

基于价值的深度多智能体强化学习与动态稀疏训练

TL;DR本文针对深度多智能体强化学习(MARL)中存在的计算开销过大的问题,提出了一种创新性的多智能体稀疏训练(MAST)框架。该框架通过引入Soft Mellowmax算子和双重重放缓冲区机制,显著提升了稀疏模型的学习可靠性与样本分布合理性,实现了在训练和推理阶段的浮点运算减少高达20倍,同时仅带来不到3%的性能下降。