UniBriVL：音频驱动扩散模型的稳健通用表示和生成

Jul, 2023

UniBriVL：音频驱动扩散模型的稳健通用表示和生成

UniBriVL: Robust Universal Representation and Generation of Audio Driven Diffusion Models

Sen Fang, Bowen Gao, Yangjian Wu, Jingwen Cai, Teik Toe Teoh

TL;DR我们提出了一种名为 UniBriVL 的新型通用语言表征学习方法，该方法基于图像和语言的桥接，将音频、图像和文本嵌入到共享空间中，实现各种多模态应用。该方法解决了语言（文本和音频）表征学习中的主要挑战，并有效捕捉了音频和图像之间的相关性，同时通过定性评估展示了从音频生成的图像的潜力。UniBriVL 在下游任务中的实验结果表明了其有效性以及从音频中选择适当图像的能力，该方法具有语音识别、音乐信号处理和字幕系统等各种应用潜力。

Abstract

multimodal large models have been recognized for their advantages in various performance and downstream tasks. The development of these models is crucial towards achieving general artificial intelligence in the future. In this paper, we propose a novel universal →

multimodal large models unibrivl bridging-vision-and-language language representation learning audio-image correlation

发现论文，激发创造

使用 BriVL 生成音频形象 GAN 表示

本文提出了一种基于 BriVL 的音频表述学习方法 WavBriVL，该方法将音频、图像和文本投影到共享的嵌入式空间中，实现多模态应用，并通过定性评估展示了 WavBriVL 所生成图像的相关性。该方法可有效地从音频中生成适当的图像，探索了一种新的图像生成方式。

Mar, 2023

图像、视频、音频和语言任务的统一模型

通过 UnIVAL 统一模型，可以有效地支持图像、文本、视频和音频等多种模态任务，并通过模型权重插值实现多模态模型融合，展示其在特定领域的分布外泛化能力。

Jul, 2023

Chat-UniVi：统一视觉表示赋予大型语言模型图像和视频理解能力

Chat-UniVi 是一个统一的视觉 - 语言模型，能够理解和参与涉及图像和视频的对话，并通过一种统一的视觉表示来实现。该模型利用一组动态视觉令牌来统一表示图像和视频，同时具备捕捉图像的空间细节和视频的全面时间关系所需的能力。Chat-UniVi 在包含图像和视频的混合数据集上进行训练，无需任何修改即可直接应用于涉及两种介质的任务，并在广泛的实验结果中一直优于专门设计用于图像或视频的现有方法。

Nov, 2023

语言理解通用多模态表示

本文提出了一种新方法来将视觉信息作为协助信号用于 NLP 任务，使用 Transformer 编码器和卷积神经网络来对文本和图像进行编码，通过注意力层将两种模态的表征进行融合，实验结果表明，该方法在不同的任务和语言中都具有很好的效果。

Jan, 2023

UniVL: 用于多模态理解和生成的统一视频与语言预训练模型

本论文提出了 UniVL：一种统一的视频和语言预训练模型，旨在为多模态理解和生成任务提供强大的视频和文本表示，并通过五个目标以及分阶段和增强视频表示的预训练策略来训练各组件，最终在五个下游任务上实现了最新的成果。

Feb, 2020

多模学习脑视语特征解码视觉神经表示

本文提出了一种名为 BraVL 的神经解码通用方法，采用三模态深度生成模型对脑部、视觉和语义特征之间的关系进行建模，以提高对新颖视觉类别的准确性，进而发现通过视觉和语义特征的组合进行解码比单独使用这两者更卓越，进而表明视觉感知可能伴随语言影响以表示视觉刺激的语义。

Oct, 2022

WenLan：大规模多模态预训练桥接视觉和语言

本文介绍了作者团队领导的 “文兰” 项目的主要研究方向，即通过两个塔的 BriVL 预训练模型和跨模态对比学习框架的先进算法，隐式地建模跨模态关联，从而更成功地实现大规模多模态预训练。同时，他们还建立了一个大规模的中文多源图像文本语料库，称为 RUC-CAS-WenLan，用于 BriVL 模型的预训练。实验结果表明，预训练的 BriVL 模型在各种下游任务中的性能优于 UNITER 和 OpenAI CLIP。

Mar, 2021

统一 IO 2：使用视觉、语言、音频和动作扩展自回归多模态模型

我们提出了 Unified-IO 2，这是第一个能够理解和生成图像、文本、音频和动作的自回归多模态模型。通过将输入和输出（图像、文本、音频、动作和边界框等）进行分词，在共享语义空间中统一不同的模态，并使用单个编码器 - 解码器变换器模型进行处理。通过从多样化来源的大型多模态预训练语料库中使用多模态混合去噪目标对模型进行从头训练，我们提出了各种架构改进来稳定模型训练。为了学习广泛的技能，如遵循多模态指令，我们构建并在包含提示和增强的 120 个数据集的集合上进行微调。通过一个统一的模型，Unified-IO 2 在 GRIT 基准测试中实现了最先进的性能，并在超过 35 个基准测试中取得了强大的结果，包括图像生成和理解、自然语言理解、视频和音频理解以及机器人操控。我们将所有模型发布给研究社区。

Dec, 2023

UniBrain：将图像重建与字幕生成统一于一个扩散模型之中从人脑活动

通过人脑活动诱发的视觉刺激来进行图像重建和字幕生成，UniBrain 提出了一种统一的人脑活动扩散模型，通过 fMRI 转换文本和图像潜在信息，并通过 CLIP 引导反向扩散过程，从而生成具有低级细节和高语义真实感的图像和字幕。在图像重建和图像字幕生成方面，UniBrain 在定性和定量方面都优于现有方法，并首次在自然场景数据集（NSD）上报告了图像字幕生成结果。此外，消融实验和感兴趣区域（ROI）分析进一步展示了 UniBrain 的优越性，并为视觉诱发脑解码提供全面的见解。

Aug, 2023

UniBridge：面向低资源语言的统一交叉语言迁移学习方法

UniBridge 是一个跨语言迁移学习的综合方法，通过优化嵌入和词汇表进行改进，在资源有限的语言中特别有效。该方法解决了语言模型的两个关键要素：嵌入的初始化和最优词汇表的选择。实验结果表明，UniBridge 显著提高了多种语言的 F1 得分，是跨语言环境中初始化嵌入和选择适当词汇表的可靠解决方案。

Jun, 2024