May, 2024

HARIS:用于参考图像分割的类人注意力

TL;DR本文提出了一种称为 HARIS 的指代图像分割方法,引入了类似于人类的注意机制和参数高效微调框架,通过多模态特征的反馈信号使网络专注于特定对象并丢弃无关的图像 - 文本对,同时引入了参数高效微调框架以保持预训练编码器的零样本能力,实验证明该方法在三个广泛使用的 RIS 基准和 PhraseCut 数据集上取得了最先进的性能和出色的零样本能力。