- 模式逼近生成优秀的视觉语言提示
本研究提出了 Aurora,一个优美的提示框架,用于跨模态传递,以解决模型复杂性和模态对齐问题。在六个跨模态下游基准测试中, Aurora 不仅优于最先进的方法,甚至优于完全微调方法。
- MaMMUT:联合学习多模态任务的简单架构
我们提出了一种使用解码器模型进行多模式任务训练的新范例,其中 MaMMUT 作为一个简单的模型,能够通过新颖的文本解码器的两次传递方法容纳对比和生成学习,并能够直接扩展到开放词汇的对象检测和视频语言任务,且该模型在多个任务上均取得了最佳效果 - eP-ALM: 语言模型的高效感知增强
本文提出了一种高效适应单模预训练模型解决多模任务的方法 eP-ALM,在冻结大多数参数、仅训练一个线性投影层,前置仅一个可训练标记的情况下,显著优于基线,并在图像、视频和音频模态下跨越 VQA 和字幕的多个基准测试中取得了最佳性能。
- 多模视觉监督对语言有益吗?
本文探讨和研究使用视觉监督学习的语言表示相对于常规语言表示对自然语言理解和常识推理基准测试的优劣,并根据多个图文模型和视频文本模型的实验结果发现,常规语言表示在多数任务中表现更好,揭示了视觉 - 语言模型当前的缺陷。
- MultiInstruct: 通过指令调整提高多模态零样本学习
本研究提出了 MultiInstruct,这是第一个多模态指令调优基准数据集,旨在设计多个特定的任务和多个专家编写的指令,使用已存在的开源数据集和多个迁移学习策略来优化 OFM 模型的强零示性能,并且探索了一个新的评估指标:敏感性。
- CVPR利用语义完形学习进行视觉语言预训练的漏洞填补
本文提出新的语义完成学习任务,以便于视觉语言预训练(VLP)模型学习多模态数据的全局语义特征,从而实现全局到局部的对其,同时采用一种灵活的视觉编码器使得该模型可以同时执行图像 - 文本与视频 - 文本的多模态任务,实验结果证明该方法在各种视 - AAAI探索预训练检查点在文本生成音乐任务中的功效
本研究首次尝试使用 BERT、GPT-2 和 BART 等公开可用的预训练模型生成完整且语义连贯的音乐曲谱,实验结果表明使用预训练检查点在文本到音乐生成任务中具有显著改进。
- EMNLPFaD-VLP: 面向统一检索和说明的时尚视觉语言预训练
提出了一个基于三元组生成的时尚特定预训练框架和可同时执行时尚检索和字幕任务的灵活解码器模型设计,具有跨模态检索、图像检索、图像字幕和多模态分类等多种功能。
- EMNLPMM-Align: 基于最优输运的对齐动力学学习,以实现快速准确推断缺失模态序列
本文介绍一种名为 MM-Align 的新方法,利用最优传输理论中的对齐动力学学习模块和去噪训练算法,针对缺失多模态数据进行推断。通过在覆盖两个多模态任务的三个数据集上进行全面实验,结果表明我们的方法可以在各种缺失条件下执行更精确和更快的推断 - TVLT: 无文本的视觉语言变换器
该研究提出了一种无需文本模块的视频与语言结合模型 ——Textless Vision-Language Transformer (TVLT),采用均质的 transformer block 提取由视觉和语音输入组成的多模态信息,用 mask - PaLI: 一个共同缩放的多语言语言图像模型
PaLI 是一种简单、模块化和可扩展的神经网络模型,利用大规模预训练的 encoder-decoder 语言模型和 Vision Transformers 来实现视觉和语言的联合建模,并在多种语言的情况下生成文本并完成多模态任务,此外,通过 - CLiMB: 用于视觉语言任务的持续学习基准
本研究介绍了 CLiMB 基准测试,并提出了一种改进的视觉 - 语言 Transformer (ViLT) 模型,用于同时处理多模态任务和单模态任务的连续学习问题。通过实验发现,虽然常见的连续学习方法可以缓解多模态任务学习中的遗忘问题,但并 - 语言模型的视野:在文本生成中插入视觉控制
本研究提出了一个名为 MAGIC 的无需训练的框架,它能够将视觉控制插入文本生成过程中,并使 LM 在零样本情况下执行多模态任务,如图像字幕生成。在零样本图像字幕生成方面,MAGIC 在几乎 27 倍的解码加速度下,极大地超越了现有的最先进 - 动态多模态融合
本文提出了一种动态多模态融合的方法,可以在预测过程中根据数据的不同需求自适应地融合多模态数据,从而有效地减少计算成本,并在多个多模态任务上获得了良好的效果,这为动态多模态网络设计开辟了一条新的方向。
- CVPR通过即时梯度调控实现平衡多模态学习
本文研究了多模式学习中可能存在的优化失衡问题,提出了一种新的梯度调节方法,通过动态监测不同输入模态的贡献来自适应地优化每个模态,以解决某些场景下存在的支配模态问题,并且在不同的多模式任务中能够获得显著的改进效果。
- 具有可操作感知的多模态神经 SLAM 学习行为
提出一种神经 SLAM 方法,利用多种模态进行探索,预测可承受意义地图并在其上进行规划,从而显著提高了探索效率,实现了鲁棒的长程规划,使得机器智能能够更有效地识别视觉和语言信息。在 ALFRED 基准测试中,相对先前发表的作品,提出的 Af - AAAIGPT-3 对少样本基于知识的 VQA 的经验研究
使用图像描述作为提示,通过 GPT-3 来实现基于知识的多模态问题回答,采用少样本学习,使 PICa 在两个数据集中超过有监督的最先进水平。
- ACLGEM: 多模态任务通用评估基准
本文介绍了一个新的多模态任务的通用评估基准 GEM,它是一个大规模的视觉 - 语言基准,由包括图像 - 语言任务和视频 - 语言任务的 GEM-I 和 GEM-V 组成,并标记有多种语言的数据集。我们还为此基准提供了两个基准模型,旨在推动多 - ECCV早期融合和批次规范对 CLEVR 视觉问答中细节的影响
本文研究了在 Visual QA 领域中取得强大性能的初馈聚合模型的复杂性,发现了一些架构上的要素对于其性能的关键作用,其中早期的语言 - 视觉融合是最为有效的,为此我们提出了一种称之为 “多模核” 的简单模块,旨在为多模任务提供基本操作。
- 基于注意力机制的视听融合在强鲁棒性自动语音识别中的应用
本文提出了一种音频视觉融合策略,该策略不仅可以超越简单的特征连接,而且可以自动地对齐两种方式,具有提高语音识别准确性的增强表示,特别适合干扰噪声环境中的识别任务,并且可以推广到许多涉及相关模态的多模态任务中。