Jul, 2024
不确定性下的实时系统最优交通路由 -- 物理模型能否提升强化学习?
Real-time system optimal traffic routing under uncertainties -- Can
physics models boost reinforcement learning?
TL;DRTransRL是一个整合了物理模型和强化学习的新算法,通过建立基于物理模型的确定性策略,并从可微分和随机的教师策略中学习,实现了增强的性能、可靠性和可解释性;实验结果表明TransRL在实际网络数据上比基于交通模型的方法更具适应性和学习性,并且比PPO和SAC等基线强化学习算法具有更高的可靠性和可解释性。