MERLOT Reserve: 通过视觉、语言和声音获得神经剧本知识

CVPRJan, 2022

MERLOT Reserve: 通过视觉、语言和声音获得神经剧本知识

MERLOT Reserve: Neural Script Knowledge through Vision and Language and Sound

Rowan Zellers, Jiasen Lu, Ximing Lu, Youngjae Yu, Yanpeng Zhao...

TL;DR介绍了一种多模态预训练模型 MERLOT Reserve，该模型在预训练时利用音频、字幕和视频帧一起学习，可以实现强大的多模态表示，并在一些视频任务上取得了领先水平，提出了音频为何能够提高视觉 - 语言表示的可能性，并讨论了这种多模态预训练的伦理和社会影响。

Abstract

As humans, we navigate a multimodal world, building a holistic understanding from all our senses. We introduce merlot reserve, a model that represents videos jointly over time -- through a new training objective

merlot reserve multimodal pretraining audio video

发现论文，激发创造

MERLOT: 多模态神经脚本知识模型

MERLOT 是一个模型，通过观看数百万个 YouTube 视频进行自我监督的无标签学习，学习多模态脚本知识，包括空间和时间和语境化的全局情况，从而在视觉场景中推理动态情境，形成出色的时间常识和现场表现，并在视觉常识推理方面表现出色。

Jun, 2021

自监督多模态通用网络

本文介绍了一种利用视频中存在的三种模态（视觉、音频和语言），通过自监督学习来学习表示的方法，并引入了多模态多功能网络的概念 —— 一种可以吸收多种模态，其表示方法可以在多种模态下用于下游任务。通过这种方法，我们可以在多个具有挑战性的基准测试中获得最先进的性能。

Jun, 2020

多模视觉监督对语言有益吗？

本文探讨和研究使用视觉监督学习的语言表示相对于常规语言表示对自然语言理解和常识推理基准测试的优劣，并根据多个图文模型和视频文本模型的实验结果发现，常规语言表示在多数任务中表现更好，揭示了视觉 - 语言模型当前的缺陷。

Feb, 2023

VATLM：基于联合掩码预测的视听文字预训练方法，用于语音表示学习

本文采用统一的跨模态表示学习框架 VATLM，通过模态无关信息建模、模态依赖模块预处理视觉、语音、文本输入，以及使用统一分词器掩蔽预测任务来将三个模态集成到一个共享语义空间中，优化下游任务的结果表明，VATLM 在音频 - 视觉相关的下游任务中的表现超过了先前的最先进模型，并且能够将不同的语言类型对齐到同一个语义空间。

Nov, 2022

将更多关注转移到视觉语言对象追踪上

我们设计了一种有效的视觉 - 语言表示方法，同时为追踪问题构建了一个大型带有语言注释的数据库。通过引入异构架构搜索和模态混合器等核心技术，以及对不同模态之间进行对比损失的引入，我们能够显著改善追踪问题的解决方案，并期望将更多注意力转向视觉 - 语言追踪，为未来的多样化多模态消息追踪开辟更多可能性。

Jul, 2023

多模视觉 - 语言整合的多模视频变压器与大脑 (部分) 对齐

我们通过利用脑科学证据来探索预训练的多模态视频变换器模型，发现视觉增强了与语言处理中的遮蔽预测性能，支持模型中交叉模态表示可以受益于个体模态，但未发现与大脑相关的信息，我们展示使用一个需要视觉 - 语言推理的任务，可以改善预训练联合表示的脑对齐效果，这些结果呈现了多模态变换器在部分与大脑相关的方式上集成视觉和语言的能力，但也表明改善这些模型的脑对齐可能需要新的方法。

Nov, 2023

语言理解通用多模态表示

本文提出了一种新方法来将视觉信息作为协助信号用于 NLP 任务，使用 Transformer 编码器和卷积神经网络来对文本和图像进行编码，通过注意力层将两种模态的表征进行融合，实验结果表明，该方法在不同的任务和语言中都具有很好的效果。

Jan, 2023

魔法后的 MERLIM: 大型图像 - 语言模型的多模态评估基准

本文介绍了一个名为 MERLIM 的多模式评估基准，用于评估 IT-LVLM 在基本计算机视觉任务中的表现，发现先进的 IT-LVLM 仍然有限于识别精细的视觉概念，对象幻觉在各种任务中普遍存在，而且结果受输入查询的细微变化的强烈偏见影响，即使查询具有相同的语义。研究结果还表明，这些模型在视觉基础上较弱，但仍然可以通过全局视觉模式或 LLM 组件中的文本偏见进行恰当的猜测。

Dec, 2023

u-HuBERT：统一的混合模态语音预训练与零样本迁移到未标记模态

本文提出了 u-HuBERT，它是一个能够利用模态失效的自监督预训练框架，可以在保持优秀性能的同时，实现单模型处理多模态的语音输入。

Jul, 2022

Mirasol3B：面向时间对齐和上下文多模态自回归模型

我们提出了一种多模态模型 Mirasol3B，通过自回归机制，将多媒体输入分别处理并建模，同时使用分段和合并机制来处理视频和音频序列的长依赖性，从而实现了在多模态基准测试上的最佳结果。

Nov, 2023