空间感知深度强化学习与巡逻官员问题

Jan, 2024

空间感知深度强化学习与巡逻官员问题

Spatial-Aware Deep Reinforcement Learning for the Traveling Officer Problem

Niklas Strauß, Matthias Schubert

TL;DR该论文提出了一种名为 SATOP 的新型空间感知深度强化学习方法，通过创造每个动作的表示，并利用停车位、代理和动作之间的空间关系，以及学习给定环境中未来动作之间的相互关系，实现在提高罚款的同时动态调整到当前可罚款的停车违规情况，并计划提高官员在违规发生时到达的可能性，结果显示 SATOP 始终优于现有最先进的任务态势官员并能罚款多达 22% 的停车违规。

Abstract

The traveling officer problem (TOP) is a challenging stochastic optimization task. In this problem, a parking officer is guided through a city equipped with parking sensors to fine as many parking offenders as po

traveling officer problem stochastic optimization parking offenses deep reinforcement learning spatial relationships

发现论文，激发创造

基于强化学习的 MCTS 路径规划在自动停车中的加速

通过将强化学习与蒙特卡洛树搜索相结合，我们提出了一种方法来增强完全可观察环境下自动停车任务的在线路径规划。通过先前的搜索步骤中综合利用先前的知识，状态评估方法对于在高维空间下的基于采样的规划方法可以提高实时系统中的计算效率。在复杂环境下执行自动停车任务的挑战在于传统的解析方式很难构建坚固但轻量级的启发式引导。为了克服这一限制，我们在路径规划框架下提出了一种强化学习流程和蒙特卡洛树搜索的结合。通过迭代学习状态的值以及从上一个周期的结果中选出的最佳动作样本，我们能够建模给定状态的值估计器和策略生成器。通过这样的方式，我们建立了一种探索与利用之间的平衡机制，加速了路径规划过程，并在不使用人工专家驾驶员数据的情况下保持其质量。

Mar, 2024

学习巡回：运算符设计用于解决方案可行性映射的接送旅行推销员问题

本文旨在开发一种用于一类特殊旅行推销员问题（TSP）的学习方法，即接送 TSP（PDTSP），该方法通过一系列一对一接送节点找到最短路径。我们利用可行解算空间中的操作符来解决 PDTSP，这些操作符将一个可行解映射到另一个可行解，从而限制解决方案搜索范围。通过与经典 OR 算法和现有学习方法进行比较，结果表明我们的方法可以找到比基准更短的路径。

Apr, 2024

街边停车推荐：基于异构图的排序算法

本文提出了一种基于 learn-to-rank 模型和异构图的方法，自动推荐出直接可用的停车位，实现了实时停车信息的提供。在香港和旧金山的试验中表现出了不错的性能。

Apr, 2023

HOPE: 基于强化学习的混合策略路径规划方法用于多样化停车场景

本文介绍了一种新颖的解决方案，Hybrid POlicy Path plannEr (HOPE)，它将基于强化学习的智能体与 Reeds-Shepp 曲线集成在一起，在不同的场景中实现有效的路径规划。通过采用变压器作为网络结构来融合环境信息和生成规划路径，并引入了动作掩码机制以提高强化学习训练的效率和效果。实验结果表明，该方法在规定的停车场景中胜过了传统的基于规则和强化学习方法，具有更高的规划成功率和推广性。

May, 2024

学一次计划任意 (LOPA): 基于注意力增强的全局路径规划深度强化学习方法

我们在这篇论文中提出了一种名为 LOPA（Learn Once Plan Arbitrarily）的注意力增强深度强化学习（DRL）方法，通过建立注意力模型和构建双通道网络来解决全局规划任务中 DRL 所面临的收敛性和泛化性不足的问题，并经过多目标全局路径规划实验证明，LOPA 具有改进的收敛性、泛化性以及出色的路径规划效率。

Jan, 2024

结合强化学习和最优传输的旅行商问题

利用熵正则化最优传输技术作为深度强化学习网络中的一层，以实现更快速的学习并在端到端训练期间强制执行分配约束和规定，从而对于解决组合优化问题的效率进行优化。

Mar, 2022

停车场占用检测中深度学习方法的修订

该研究通过比较和评估现有车位检测算法和视觉转换器，提出了一种新的基于 EfficientNet 体系结构的管道，以增加现有系统的泛化能力和适应特定的视觉条件，从而提高停车场占用检测的效果。

Jun, 2023

未知环境下在线覆盖路径规划的端到端强化学习

该研究提出了基于强化学习的、连续状态和动作空间下的在线覆盖路径规划方法，用于处理未知环境的大型区域，并且结合了全局地图和局部感知输入，以及多尺度地图输入表示的观测空间构建，通过提出的全变差奖励，实现了学习路径上无漏洞被覆盖的目标。

Jun, 2023

深度确定性策略梯度用于城市交通信号灯控制

本文旨在提出一种使用深度学习 DDPG 算法来优化交通信号灯时序的方法，以应对交通数据信息量大的情况，并在简单和复杂的交通网络测试中获得了良好结果。

Mar, 2017

预测驱动的一次性动态停车定价

本文提出了一种基于预测的优化框架，使用深度学习技术和神经普通微分方程（NODEs）设计预测模型，以预测停车场的占用率和价格信息，并使用一次性价格优化方法来优化预测模型使用的价格输入，以实现针对性的停车栏目占用率，实验证明该模型准确率高于其他模型，并且该一次性优化方法搜索时间较少且始终返回最优价格解。

Aug, 2022