ICLRMar, 2024

用 Transformer 统一特征和成本聚合的语义和视觉对应

TL;DR本论文介绍了一种基于 Transformer 的综合特征和成本聚合网络,用于密集匹配任务。我们展示了特征聚合和成本聚合的不同特点,并介绍了一种简单而有效的架构,利用自注意力机制和互注意力机制来统一特征聚合和成本聚合,从而在语义匹配和几何匹配任务中实现了显著的改进。