Apr, 2024

基于邻域的 Dubins 旅行推销员问题的特权信息提取

TL;DR文中提出了一种新的学习方法,用于解决带有邻域的 Dubins 旅行推销员问题 (DTSPN),以快速生成通过给定任务点邻域的非全向车辆的路径。该方法包括两个学习阶段:首先,模型无关的强化学习方法利用特权信息从 LinKernighan 启发式算法生成的专家轨迹中提取知识;随后,监督学习阶段训练一个适应网络,独立解决问题而不依赖特权信息。在第一个学习阶段之前,还设计了一种使用演示数据进行参数初始化的技术,以提高训练效率。所提出的学习方法比 LKH 快约 50 倍,显著优于其他模仿学习和演示式 RL 方法,其中大多数无法感知到所有任务点。