大型语言模型作为视觉跨领域学习器

Jan, 2024

大型语言模型作为视觉跨领域学习器

Large Language Models as Visual Cross-Domain Learners

Shuhao Chen, Yulong Zhang, Weisen Jiang, Jiangang Lu, Yu Zhang

TL;DR近期由深度学习模型取得的进展基于独立且同分布的假设，限制了它们在具有领域转移的实际场景中的应用。为了解决上述问题，跨域学习旨在提取领域不变的知识，以减少训练和测试数据之间的领域转移。然而，在视觉跨域学习中，传统方法仅集中于图像模态，忽略了利用文本模态来减轻领域转移。本文提出了大型语言模型作为视觉跨域学习器（LLaVO）。LLaVO 使用视觉 - 语言模型将图像转换为详细的文本描述，然后使用设计的指令模板在源 / 目标领域生成的文本描述上对大型语言模型进行微调。对领域概括和无监督领域自适应设置下的各种跨域任务进行了广泛的实验，结果表明了所提方法的有效性。

Abstract

Recent advances achieved by deep learning models rely on the independent and identically distributed assumption, hindering their applications in real-world scenarios with domain shifts. To address the above issues, cross-domain learning aims at extracting domain-invariant knowledge to

deep learning models cross-domain learning visual cross-domain learning large language models unsupervised domain adaptation

发现论文，激发创造

定向领域微调：为特定训练任务定制分开的模态

通过使用 LORA 方法，我们提出了使用特定领域的信息数据集进行模型参数微调的方法，我们的研究旨在提高 Video-LLaVA 模型在烹饪视频中生成特定食材列表和详细指导的能力。

Jun, 2024

推进视觉语言模型的领域间辨识性在连续学习中

利用回归分析的增量学习和跨领域任务无关增量学习方法，保持视觉 - 语言模型的零 - shot 能力和在多领域下的性能。

Jun, 2024

跨语言文档分类中的领域差异缩小

本文研究跨语言理解中的半监督学习，通过结合最先进的跨语言方法和弱监督学习方法，同时解决语言和领域差异，实现了对跨语言文档分类中的新的领先水平。

Sep, 2019

预训练跨语言语言模型的无监督领域自适应

本文提出了一种用于自动提取领域特定特征和领域不变特征的无监督特征分解方法，并利用互信息估计将交叉语言表示计算所述的跨领域和跨语言（CLCD）设置分解为领域不变和领域特定部分，实验结果表明，我们提出的方法在 CLCD 设置中取得了显著的性能提升。

Nov, 2020

MetaVL：从语言模型向视觉语言模型转移上下文学习能力

本文研究如何使图像 - 语言领域的大规模预训练模型具备上下文学习的能力，通过将自然语言处理领域的元学习应用于视觉 - 语言领域，并使用视觉编码器实现跨域转移学习，实验证明可以显著提高视觉问答任务的上下文学习能力，甚至可以补偿模型的大小并取得比基线模型更好的表现。

Jun, 2023

通过领域自适应字典学习实现跨域视觉识别

本文提出了一种新的领域自适应字典学习框架用于跨领域视觉识别，该方法通过学习一组中间领域，形成一个平滑的路径来弥补源域和目标域之间的差距，并通过分离共享字典和特定字典来实现更紧凑和再现性字典的学习，通过领域自适应稀疏编码和字典更新步骤学习。实验结果表明，该方法在三个公共数据集上表现优于大多数最先进的方法。

Apr, 2018

拓展界限：利用大型多模态模型探索零样本物体分类

该研究论文以大型多模型为主题，探索了通过特定数据集设计的提示词，使用 LMMs 来执行图像分类任务的功效，并研究了 LLVAs 的零样本学习能力。通过四个不同的数据集的基准分析，实验结果表明模型在 MNIST，Cats Vs. Dogs，Hymnoptera（Ants Vs. Bees）以及 Pox Vs. Non-Pox 皮肤图像等各个数据集上均取得了显著的性能，无需进行任何微调即可达到 85％，100％，77％和 79％的分类准确率。此外，细调后模型在面部照片和自闭症儿童的数据集上分别表现出了显著的改进，强调了 LLVAs 的变革潜力和在现实场景中的多样应用。

Dec, 2023

在上下文中适应：通过上下文中学习的检索增强域适应

通过无监督的领域自适应方法以及在上下文学习环境下的查询元素子集检索策略，我们研究了适应语言模型从源领域到目标领域的问题，以学习目标领域分布并通过语言建模实现任务信号的适应，从而在情感分析和命名实体识别任务中实现了显著的性能提升。

Nov, 2023

利用文本为视觉表示建立通用领域基础

本文提出了一种基于自然语言监督的跨模态领域泛化方法，利用视觉和文本交互的表征来实现高级别类别判别的信息融合，并使用可解释的模型来生成解释，从而提高模型的泛化能力和性能。作者的方法在多个数据集上均取得了最新领先的结果。

Jul, 2022

大型语言模型是低样本图像分类的良好触发器学习者

通过整合大型语言模型（LLMs）提升预训练视觉 - 语言模型（VL）在低样本图像分类中的能力，提出了大型语言模型作为提示学习者（LLaMP）的方法，并在 11 个数据集上的零样本和小样本图像分类任务中取得了更好的性能。

Dec, 2023