May, 2023

在小数据集上通过本地归纳偏置引入提高视觉 Transformer 的性能

TL;DR本文提出基于自注意力块的局部信息增强模块 LIFE,通过提取补丁级别的局部信息并将其合并到 ViTs 的嵌入中,在小尺寸图像分类数据集上改进了 ViTs 的性能,并将其推广到目标检测和语义分割等下游任务,在此基础上,引入了一种新的可视化方法 —— 密集注意力 Roll-Out,特别适用于密集预测任务。