Mar, 2024

自适应分布式强化学习的多目标优化

TL;DR提出了一个高学习效率、计算要求低的多目标、多智能体强化学习算法,适用于动态、分布式和嘈杂环境,通过稀疏和延迟奖励自动触发自适应的少样本学习,在智能交通系统中经过实证研究和与现有算法的比较,取得了更好的性能。