一种轻量级的 CNN-Transformer 模型用于学习旅行商问题
对于旅行推销员问题 (TSP) 进行路由问题的研究中,提出了一种数据预处理方法,使用图稀疏化和注意力掩码来将编码器聚焦于 TSP 实例的关键部分,实验结果显示,适当的图稀疏化和注意力掩码方法可以显著提高整体架构的性能。
Mar, 2024
本文利用强化学习和 Transformer 结构设计了用于 Traveling Salesman Problem 的新型算法,相较于以往的算法在 TSP50 和 TSP100 上有了更好的表现
Mar, 2021
本文介绍了一种基于深度学习算法的解决平面欧几里得图中旅行商问题的方法,通过使用图卷积网络构建 TSP 图表示,并通过高度并行化的 Beam Search 非自回归方法输出巡回路径,我们在解决相同节点规模下的问题中比最近提出的自回归深度学习技术表现更好,最终平均优化差距从 50 个节点降低到 0.01%,100 个节点从 2.26%降至 1.39%,尽管相较于标准的运筹学求解器,我们的方法还有所欠缺。
Jun, 2019
我们提出了一种新的 Transformer 模型 CycleFormer 用于解决旅行推销员问题 (TSP)。该模型充分考虑了 TSP 的特点,并通过将编码器输出与解码器线性层相等以及直接连接编码器的上下文向量来实现这些元素的完全融合。通过添加与 TSP 的二维特性相对应的位置编码和考虑路径循环性质的解码器的循环位置编码,CycleFormer 在从 TSP-50 到 TSP-500 范围内优于现有的 TSP Transformer 模型,尤其在 TSP-500 上,优化性差距减小了约 2.8 倍,从 3.09% 降低到 1.10%。
May, 2024
本文研究在 Vision Transformers 与卷积神经网络之间构建混合模型时的计算瓶颈问题,探索采用卷积层进行初始化以达到更快的训练速度,得到的 Transformed CNN (T-CNN) 相比 CNN 在 ImageNet-1k 上有 2.2% top-1 和 ImageNet-C 上有 11% top-1 的性能提升,研究发现初始化 T-CNN 可以从部分训练的 CNN 开始进行,可以更快地达到高性能。
Jun, 2021
该论文提出了一种数据驱动的图表示学习方法,用于解决具有不同数量城市的旅行推销员问题,并通过实验证明该方法在解决旅行推销员问题方面具有与最先进的基于学习的方法相媲美的性能。
Oct, 2023
本文提出了一种新的端到端深度强化学习方法 Pointerformer,基于多指针变压器,可解决旅行商问题(TSP)的内存消耗和算力问题,通过特征增强方法探索 TSP 的对称性以及增强上下文嵌入方法以包含更多综合上下文信息,此方法在小规模和大规模问题上均表现出了竞争优势。
Apr, 2023
本文提出 HyperTransformer,一种基于 Transformer 的监督和半监督 few-shot 学习模型,该模型直接从 support 样本中生成卷积神经网络(CNN)的权重。通过将小型生成的 CNN 模型对特定任务的依赖性编码为高容量 Transformer 模型,我们有效地将庞大的任务空间的复杂性与个体任务的复杂性分离。对于小目标 CNN 架构而言,我们的方法特别有效,因为学习固定的通用任务无关嵌入并不是最优决策,而在任务的信息可以调节所有模型参数时,会获得更好的性能。对于更大的模型,我们发现仅生成最后一层便可产生具有与现有技术类似或更好结果的端对端可微分的模型。
Jan, 2022
本研究提出了 Routing Transformer,它结合了疏密注意力和本地、时间疏松注意力的建模灵活性和效率。该模型具有基于在线 K 均值的稀疏路由模块,将注意力的总体复杂度从 $O (n^2d)$ 降至 $O (n^{1.5} d)$,并在 Wikitext-103 和 ImageNet-64 上表现出了良好的性能。
Mar, 2020
本文提出了一种神经组合优化方法,将学习算法与模型架构相结合,以实现在训练过程中看不到的更大规模的问题的推广。通过对零样本推广的原理研究,控制实验提供了第一手数据,并提供了深度学习的新方向。
Jun, 2020