CVPRMar, 2024

掩蔽自动编解码器是一种有效的多任务视觉通才

TL;DR通过引入双向注意力机制、并行解码框架和掩码序列建模方法,设计了一种名为 MAD 的多任务视觉通用模型,用于统一各种视觉任务,实验证明 MAD 在性能和推理效率方面优于自回归模型,并在与任务专用模型相比获得竞争力的准确性。