Dec, 2023

互信息作为强化学习智能体的内在奖励:面向按需乘车拼车的研究

TL;DR采用增强学习算法的车辆调度框架在提高收益的同时保证了请求的合理分配,可以显著提高现有最佳即时共乘方法的收入达到平均 3%的增长。