Nov, 2023

直接关注损失调整的优先经验回放

TL;DR通过并行自注意力网络,直接量化改变的分布程度以准确补偿误差,并设计优化样本筛选标准的优先 - 鼓励机制来提高训练效率。与基于值函数、基于策略梯度和多智能体强化学习算法相结合验证 DALAP 的有效性和普适性,多组对比实验表明 DALAP 在提高收敛速度和减小训练方差方面具有显著优势。