Dec, 2023

融合不同任务和领域的视觉 Transformer

TL;DR该研究旨在将训练在不同任务或领域的多个 Vision Transformers (ViTs) 合并成一个统一的模型,以保持每个任务或领域的良好性能,通过提出一种简单而有效的门控网络和模型权重相似性度量方法实现整体 ViT 模型的合并和性能提升。