May, 2024

基于 Transformer 的交互式分割中的结构化点击控制

TL;DR我们提出了一种基于图神经网络的结构点击意图模型,通过全局相似性获得用户点击的 Transformer token,然后聚合图节点以获得结构交互特征,最后使用双重交互注意力将结构交互特征注入视觉 Transformer 特征,从而增强点击对分割结果的控制,实验证明该算法能够提高基于 Transformer 的交互分割性能。