Feb, 2024

透过对比预训练提升的评论辅助视频语言对齐用于短视频幽默检测

TL;DR提出了一种新颖的两分支分层模型用于短视频幽默检测 (SVHD),命名为 Comment-aided Video-Language Alignment (CVLA),该模型通过数据增强的多模态对比性预训练,在各种模态通道上对原始信号进行操作,并通过在一致的语义空间中对齐视频和语言组件,得到合适的多模态表示。实验结果表明,CVLA 在 DY11k 和 UR-FUNNY 两个幽默检测数据集上远远超越了最先进的方法和几种竞争性基准方法。