在 CLIP 中融合音频信息进行多模态处理

AAAIMar, 2023

在 CLIP 中融合音频信息进行多模态处理

Accommodating Audio Modality in CLIP for Multimodal Processing

Ludan Ruan, Anwen Hu, Yuqing Song, Liang Zhang, Sipeng Zheng...

TL;DR本文研究了视觉 - 语言 - 音频多模态处理技术，提出了基于对比学习思想的 CLIP4VLA 模型，并在视频检索和视频字幕生成等多个任务中得到了最优结果。

Abstract

multimodal processing has attracted much attention lately especially with the success of pre-training. However, the exploration has mainly focused on vision-language pre-training, as introducing more modalities can greatly complicate model design and optimization. In this paper, we ext

multimodal processing vision-language-audio clip4vla model contrastive learning state-of-the-art performance

发现论文，激发创造

音视融合技术增强儿童视频多模态内容审核

针对面向儿童的视频内容创作数量的增加，需要强大的视频托管平台内容审核方案。我们提出了一种有效的 CLIP 适应方法，利用上下文音频提示来增强内容审核，通过冻结各个模态的背景模块，将音频模态和提示学习融合，对多模态版本的恶意或良性数据集进行了实验。

May, 2024

DialCLIP: 增强 CLIP 作为多模态对话检索器

提出了一种名为 DialCLIP 的参数高效的提示调整方法，用于多模态对话检索，通过仅调整总参数的 0.04％实现了在两个广泛认可的基准数据集上的最新性能，突出了该方法的功效和效率，强调其推动多模态对话检索领域发展的潜力。

Jan, 2024

对比交叉模态模型的语言编码器

对比交叉模态模型如 CLIP 和 CLAP 对视觉 - 语言（VL）和音频 - 语言（AL）任务有所帮助，本篇研究评估了无监督和监督的句子嵌入训练对语言编码器质量和交叉模态任务性能的影响，发现句子嵌入训练有助于提高对比 VL 模型的性能，但在 AL 预训练中效果较少，可能是由于预训练数据量有限所致。通过对表示空间的分析，句子嵌入训练改善了文本空间的均匀性，但降低了交叉模态对齐性。

Oct, 2023

视觉 - 语言模型的多模态特征提示

我们提出了一种多模态属性提示方法（MAP），通过同时探索文本属性提示、视觉属性提示和属性级对齐来解决大规模预训练视觉 - 语言模型（VLMs）在少样本情况下的一些局限性，实验结果表明我们的方法在 11 个数据集上表现优于现有方法。

Mar, 2024

探索音频在视频字幕中的作用

本研究提出了一种音视频框架，利用原始音频信号学习，通过 Modality Balanced Pre-training 优化模型，且采用局部和全局融合机制进行信息交换，以提高视频字幕生成的性能。

Jun, 2023

多模态大型语言模型在预测语言处理中体现人类式的视觉 - 语言整合的证据

大型语言模型（LLMs）的高级语言处理能力引发了关于它们是否能够复制类似人类认知过程的能力的讨论，本文通过研究多模态语言模型（mLLMs）中的视觉关注权重，发现与人类一样，mLLMs 中基于多模态输入的预测性语言处理过程也会受到视觉特征的注意引导。

Aug, 2023

CLIP 中的语言增强技术对多模态医学图像的改进解剖检测

使用多模态的医学影像，利用视觉语言模型 (CLIP) 自动生成整体身体的标准化分区和器官列表，相较于基线模型 (PubMedCLIP)，提高性能达到 47.6%。

May, 2024

基于对比学习的自动音频字幕交互式音频文本表示

本文介绍了一种名为 CLIP-AAC 的自动音频字幕系统，该系统结合声学和文本信息学习交互式跨模态表示，并应用对比学习来缩小领域差异，实验结果表明该方法在 NLP 评估标准上显著优于基线方法，表明预训练模型和对比学习对该模型的性能提升贡献都非常重要。

Mar, 2022

使用未标记的视频和预训练语言 - 视觉模型进行文本 - 音频合成的 CLIPSonic

利用预训练模型和未标注视频数据，本研究提出了一个新的方法来实现从文本到音频的合成。研究使用频繁出现的视听对应来克服高质量文本标注存在的难点，并通过传输模式来进一步提升性能。

Jun, 2023

音视频 LLM 用于视频理解

该论文介绍了一种名为 Audio-Visual LLM 的多模态大型语言模型，它通过同时接收视觉和听觉输入来进行综合视频理解。该模型的关键设计是模态增强训练，它通过集成专门设计的模态特定标记来有选择地激活适当的视觉和 / 或听觉编码器。此机制对于实现端到端的多模态视频数据联合训练至关重要。实验证明，Audio-Visual LLM 在各种视频理解任务中取得了令人印象深刻的零样本结果。

Dec, 2023