Jun, 2024

城市集中的多目标离线强化学习与对比数据共享

TL;DRMODA是一个多任务线下强化学习方法,通过对比数据共享来解决线下强化学习中的数据稀缺性和异质性问题,并且利用集成动力学模型和生成对抗网络构建鲁棒的马尔可夫决策过程,显著提升了城市决策过程。