Jul, 2024

不确定性下的实时系统最优交通路由 -- 物理模型能否提升强化学习?

TL;DRTransRL 是一个整合了物理模型和强化学习的新算法,通过建立基于物理模型的确定性策略,并从可微分和随机的教师策略中学习,实现了增强的性能、可靠性和可解释性;实验结果表明 TransRL 在实际网络数据上比基于交通模型的方法更具适应性和学习性,并且比 PPO 和 SAC 等基线强化学习算法具有更高的可靠性和可解释性。