Jan, 2024

大型语言模型作为视觉跨领域学习器

TL;DR近期由深度学习模型取得的进展基于独立且同分布的假设,限制了它们在具有领域转移的实际场景中的应用。为了解决上述问题,跨域学习旨在提取领域不变的知识,以减少训练和测试数据之间的领域转移。然而,在视觉跨域学习中,传统方法仅集中于图像模态,忽略了利用文本模态来减轻领域转移。本文提出了大型语言模型作为视觉跨域学习器(LLaVO)。LLaVO 使用视觉 - 语言模型将图像转换为详细的文本描述,然后使用设计的指令模板在源 / 目标领域生成的文本描述上对大型语言模型进行微调。对领域概括和无监督领域自适应设置下的各种跨域任务进行了广泛的实验,结果表明了所提方法的有效性。