OmniNet: 多模态多任务学习的统一架构
本文扩展和改进了 Omninet 体系结构,引入了交叉缓存注意力、整合视觉输入的补丁嵌入和支持结构化数据,提出了增强型结构化数据 Omninet (S-Omninet) 模型,能够通过交叉缓存注意力和补丁嵌入在各维度的结构化数据和非结构化数据之间实现有效的相互作用。作者在多模态数据集上评估了所提出的模型,证明相比基准 Omninet 有了显著的性能提升。
Jul, 2023
本文提出了一种名为 Omninet 的模型,通过利用元学习来学习全方位的自注意力机制,并使用高效的自注意力模型(如基于核的、低秩的和大型鸟)以缓解其高计算成本,经过在多项任务上的广泛实验,证明了这个模型在语言建模和图像识别方面已经取得了非常优秀的表现。
Mar, 2021
基于预训练的大型语言模型和视觉模态的适配器,我们提出了一种全融合模型 OmniFusion,通过比较多种架构设计原则、图像编码方法和不同的语言模型,在 8 个视觉语言基准测试中取得了最高得分,提供了在不同领域中的高度详细答案,同时我们还提供了 Mistral-based OmniFusion 模型的开源解决方案链接。
Apr, 2024
我们提出了一种名为 UniT 的统一 Transformer 模型,该模型可以同时学习不同领域中最重要的任务,从目标检测到自然语言理解和多模态推理,在编码器 - 解码器架构的基础上,通过编码器对每个输入模态进行编码,并使用共享解码器对编码的输入表示进行每个任务的预测,然后是特定于任务的输出头。我们的实验证明,在 8 个数据集上联合学习 7 个任务,使用比以前的工作更少的参数,在每个任务上都获得了强大的性能。
Feb, 2021
使用遮盖自编码器训练简单的 Vision Transformer,能够在多个视觉模态下获得与单一模态相当或更好的视觉表示,而只需使用单一的预训练模型,大大简化架构并加快训练速度。
Jun, 2022
通过使用冻结的编码器以及共享的令牌空间,Meta-Transformer 提出了一个框架,可以在 12 种不同的模态间进行统一学习,并处理多种任务,展现了转换器在发展统一多模态智能方面的潜力。
Jul, 2023
OmniVL 提出了一种新的基础模型,它通过使用一种通用架构来支持图像语言和视频语言任务,采用了一种统一的基于 Transformer 的视觉编码器,以此来实现联合图像语言和视频语言的预训练,并展示了这种范式的好处,并且这种模型能够同时支持视觉任务,跨模态任务和多模态理解。
Sep, 2022
研究 transformers 中的注意机制对视觉和语言任务的扩展,并发展适应性方法来提高模型的可解释性和计算效率。具体地,研究注意范围、稀疏和结构化 dropout 等方法,以帮助了解模型对输入序列的复杂性感知和对不同模态的稀疏性偏好。
May, 2020
评估了多模态泛化的综合性能,发现多层注意力和跨模态注意力是整合多模态输入所需的关键架构特征,但对于有限类型的多模态泛化存在基本限制,强调了现代神经模型在多模态推理方面的优势和局限性。
Jan, 2024