透过对比预训练提升的评论辅助视频语言对齐用于短视频幽默检测

Feb, 2024

透过对比预训练提升的评论辅助视频语言对齐用于短视频幽默检测

Comment-aided Video-Language Alignment via Contrastive Pre-training for Short-form Video Humor Detection

Yang Liu, Tongfei Shen, Dong Zhang, Qingying Sun, Shoushan Li...

TL;DR提出了一种新颖的两分支分层模型用于短视频幽默检测 (SVHD)，命名为 Comment-aided Video-Language Alignment (CVLA)，该模型通过数据增强的多模态对比性预训练，在各种模态通道上对原始信号进行操作，并通过在一致的语义空间中对齐视频和语言组件，得到合适的多模态表示。实验结果表明，CVLA 在 DY11k 和 UR-FUNNY 两个幽默检测数据集上远远超越了最先进的方法和几种竞争性基准方法。

Abstract

The growing importance of multi-modal humor detection within affective computing correlates with the expanding influence of short-form video sharing on social media platforms. In this paper, we propose a novel tw

multi-modal humor detection affective computing short-form video sharing svhd comment-aided video-language alignment

发现论文，激发创造

VidLA: 视频 - 语言对齐的大规模实现

我们提出了 VidLA，这是一种用于大规模视频 - 语言对齐的方法，通过在不同时间分辨率上使用一组数据令牌，以层次化的方式捕捉短程和长程的时间依赖关系，并通过简单的双塔架构，使用预训练的图像 - 文本基础模型来提高最终性能。此外，我们利用最近的 LLMs 构建了迄今为止规模最大的视频 - 语言数据集，包含不同长度的视频片段，以帮助在不同时间尺度下提取更好的表示。实验证明，我们的方法在多个检索基准上超过了现有的最先进方法，特别是在较长的视频上，并在分类基准上具有竞争力。

Mar, 2024

语言模型能在 YouTube 短视频中大笑吗？

使用 GPT-3.5 过滤与嘲笑相关的语言与视觉元素，通过时间戳和文字解释为每个视频注释，以提高大型语言模型对视频幽默的理解。

Oct, 2023

利用大规模视频转录进展高分辨率视频语言表示

本文提出了一种高分辨率和多样化的视频 - 语言预训练模型（HD-VILA），它利用一个混合 Transformer 学习丰富的时空特征以及文本特征的交互，取得了 10 个 VL 理解任务和 2 个文本到视觉生成任务的最新结果

Nov, 2021

VideoCon: 强大的视频 - 语言对齐通过对比字幕

通过介绍 VideoCon，我们的研究在应对视频字幕中语义上合理的对比变化方面改进了视频 - 语言对齐模型的鲁棒性，提出了一个广泛的对比失配频谱，并通过一个大规模语言模型构建了基于对比视频字幕的 VideoCon 对齐数据集，我们的对齐模型在人为生成的对比字幕上在视频 - 语言对齐任务中的 AUC 指标上有了 12 个百分点的提升，同时在诸如文本到视频检索（SSv2-Temporal）和视频问答（ATP-Hard）等时间广泛的视频 - 语言任务中表现出了零 - shot 的最新性能。

Nov, 2023

VLAB: 通过特征调整和混合增强视频语言预训练

本文提出了一种名为 VLAB 的新型视频 - 文本预训练方法，通过特征适应和融合扩展了 CLIP 的能力并构建统一的视频多模态模型，验证了其在视频文本检索、视频字幕生成和视频问答等高竞争任务中的有效性和多功能性。

May, 2023

增强型大语言模型视频助理

本文旨在开发一个新颖的多模态基础模型 ——Valley: Video Assistant with Large Language model Enhanced ability，实现对视频、图像和语言的感知，并通过 ChatGPT 设计的多任务指令追随视频数据，在人类和视频之间进行各种任务定向的对话，为多语言的视频助手提供高度有效的支持。

Jun, 2023

PLLaVA：基于图像到视频的无参数 LLaVA 扩展用于视频密集字幕

通过引入一种简单但有效的汇聚策略，本文将图像 - 语言预训练模型应用于视频理解任务，并在问题回答和字幕生成等基准测试上取得了最新的最佳表现。

Apr, 2024

视频 LLaVA：前投影前学习统一视觉表示

该研究论文提出了一种统一的大规模视觉语言模型（LVLM），通过在语言特征空间中统一视觉表示，学习多模态交互，从而在图像和视频基准任务上取得了卓越性能。

Nov, 2023

统一的视频 - 语言联合预训练与同步音频

我们提出了一种增强的视频语言预训练框架，使用同步音频，可以在统一的自监督转换器中学习三模态表示。我们的模型在仅使用 90 万条数据进行预训练的情况下，取得了相对于现有基准的改进结果，并通过定性可视化展示了其在学习有区分性的视觉文本表示方面的优越性。

May, 2024

CAVL：学习视觉与语言的对比和自适应表征

本研究主要探讨了视觉与语言的联合预训练，提出了一种名为 CAVL 的视觉和语言的对比和自适应表示简单有效的方法。在下游任务中，我们将其应用于包括 VQA，VCR，NLVR，RPG，TIR 和 ZS-TIR 在内的六项主要任务中，并与基准模型进行比较，结果表明我们的方法具有明显的优势。

Apr, 2023