Jun, 2021

基于深度价值网络的多司机订单调度方法

TL;DR本文提出了基于深度强化学习的骑乘共享订单分配方案,其中模拟骑乘分配问题为半马尔可夫决策过程,并使用分布式状态表示层设计Cerebellar Value Networks(CVNet)以提高非线性函数逼近器(如神经网络)的值迭代的稳定性;最后,通过AB测试和离线模拟验证,在优化司机的总收入和提高用户体验方面,CVNet相对于其他分配方法具有一定的优势,而经过有效的迁移学习后,CVNet的性能进一步得到了提高。