Jan, 2024

空间感知深度强化学习与巡逻官员问题

TL;DR该论文提出了一种名为 SATOP 的新型空间感知深度强化学习方法,通过创造每个动作的表示,并利用停车位、代理和动作之间的空间关系,以及学习给定环境中未来动作之间的相互关系,实现在提高罚款的同时动态调整到当前可罚款的停车违规情况,并计划提高官员在违规发生时到达的可能性,结果显示 SATOP 始终优于现有最先进的任务态势官员并能罚款多达 22% 的停车违规。