KDDFeb, 2022
野外强化学习:在打车市场部署的可扩展的强化学习调度算法
Reinforcement Learning in the Wild: Scalable RL Dispatching Algorithm Deployed in Ridehailing Marketplace
Soheil Sadeghi Eshkevari, Xiaocheng Tang, Zhiwei Qin, Jinhan Mei, Cheng Zhang...
TL;DR本研究提出了一种基于强化学习的实时调度算法,采用了新型的时间差异价值更新方法,并引入了自适应图剪枝策略,实现了 A/B 测试下司机收入总量提升超过 1.3%和全面部署后主要性能指标提升达到 5.3%的显著性能提升。