KDDFeb, 2022

野外强化学习:在打车市场部署的可扩展的强化学习调度算法

TL;DR本研究提出了一种基于强化学习的实时调度算法,采用了新型的时间差异价值更新方法,并引入了自适应图剪枝策略,实现了 A/B 测试下司机收入总量提升超过 1.3%和全面部署后主要性能指标提升达到 5.3%的显著性能提升。