Sep, 2023

HiT: 基于分层 Transformers 的建筑物映射

TL;DR深度学习方法在遥感影像中自动建筑物映射方面得到广泛研究。本文提出了一种简单且新颖的基于 Hierarchical Transformers 的建筑物映射方法 HiT,通过增加一个多边形头并行于分类和边界框回归头的两阶段检测结构实现了从高分辨率遥感影像中提取多边形建筑物的质量改进。经过包括分割、多边形化和正则化在内的一系列问题的分解,传统的建筑物映射方法常常导致复杂的推断过程、低准确率和差泛化能力。HiT 同时输出建筑物边界框和矢量多边形,并进行端到端的训练。多边形头采用编码 - 解码的 Transformer 架构来预测带有双向特点的序列化顶点,采用设计的双向多边形损失进行监督。此外,多边形头的编码器引入了分层注意机制和卷积操作,提供了顶点和边界级别的更多几何结构。在 CrowdAI 和 Inria 两个基准数据集上的综合实验表明,与现有技术方法相比,我们的方法在实例分割和多边形度量方面达到了最新的良好结果。此外,定性结果验证了我们的模型在复杂场景下的优越性和有效性。