May, 2021

价值函数是你所需的一切:适用于出行平台的统一学习框架

TL;DR本文提出了一个名为V1D3的value-based动态学习框架,它可以同时处理车辆分配和重新定位问题,并结合在线体验和历史轨迹数据进行周期性合成,取得了大幅提升,成为KDD Cup 2020 RL竞赛中车辆调度和定位的冠军。