FunnyNet-W：野外视频中的多模态学习有趣时刻

Jan, 2024

FunnyNet-W：野外视频中的多模态学习有趣时刻

FunnyNet-W: Multimodal Learning of Funny Moments in Videos in the Wild

Zhi-Song Liu, Robin Courant, Vicky Kalogeiton

TL;DR通过跨和自注意力模型，FunnyNet-W 使用视频中的视觉、音频和文本数据，预测出有趣的时刻，同时提出了一种无监督方法来获取训练标签。实验结果表明，FunnyNet-W 成功地利用了视觉、听觉和文本线索来识别有趣的时刻，并在各个数据集上创造了有趣时刻检测的新的最佳成果。

Abstract

Automatically understanding funny moments (i.e., the moments that make people laugh) when watching comedy is challenging, as they relate to various features, such as body language, dialogues and culture. In this

funny moments comedy funnynet-w multimodal cues unsupervised approach

发现论文，激发创造

语言模型能在 YouTube 短视频中大笑吗？

使用 GPT-3.5 过滤与嘲笑相关的语言与视觉元素，通过时间戳和文字解释为每个视频注释，以提高大型语言模型对视频幽默的理解。

Oct, 2023

UR-FUNNY：一个用于理解幽默的多模态语言数据集

本文介绍了一种称为 UR-FUNNY 的多模态数据集，该数据集开辟了解析表达幽默的多模态语言的研究领域，从而为自然语言处理社区提供了多模态幽默检测的框架。

Apr, 2019

何时大笑以及如何大笑？一种多模态方法来检测幽默及其强度

本研究使用多模态数据，通过预录笑声，自动检测《老友记》电视剧中的幽默元素，成功率为 78％，平均误差为 600 毫秒。

Nov, 2022

自发幽默的多模态预测：一个新颖的数据集和初步结果

本文介绍了一种新的 Passau-SFCH 数据集，用于幽默和其情感和方向的自动分析，研究结果表明，对于幽默和其情感的自动分析，面部表情最有潜力，而文本特征最适合模拟幽默方向。

Sep, 2022

混合多模式融合的幽默检测

本文主要介绍我们针对 2022 年 MuSe 多模情感挑战赛的 MuSe-Humor 子挑战所做的研究。我们首先使用变压器模块和 BiLSTM 模块构建一个判别模型，然后提出了一种混合融合策略来提高模型的性能，该模型在测试集上的 AUC 为 0.8972。

Sep, 2022

为预训练语言模型整合非语言线索而文本化多模态信息

本文研究了如何将非语言性特征（例如视觉和听觉）转化为对应的文本描述，并将其与口头文本结合，从而将多模态信息整合到基于文本的预训练大语言模型中。我们称此方法为 TextMI，并在情感、幽默和讽刺检测等多个下游任务中进行了 fine-tune，取得了令人满意的性能，因此提出将 TextMI 作为低资源环境下多模态行为分析任务的通用、有竞争力的基准。

Mar, 2023

使用卷积神经网络预测观众笑声

本文研究幽默识别，并使用语言学知识与卷积神经网络方法进行比较。结果显示，基于卷积神经网络的方法可以自动学习基本特征，提高了识别准确性。

Feb, 2017

使用多模式分层交叉注意力模型标记在线视频中的喜剧恶作剧内容

我们提出了一种新颖的端到端多模态系统用于探测在线媒体中的可疑内容，特别是针对喜剧恶作剧这一子类别。

Jun, 2024

EmoNets: 多模深度学习方法用于视频情感识别

本研究使用深度学习技术，以多模态方式，使用面部检测、音频流等模态，探索影片情感识别模型，成果在 2013 年的 EmotiW 挑战中成为获胜者，并在 2014 年的数据集上实现了约 47.67% 的准确率。

Mar, 2015

使用视觉、音频和文本特征进行多模态话语级情感分析

本文介绍了一种利用 LSTM 结合口语音频和文本信息对多媒体剪辑中的情感进行识别的多模态神经架构，其优于单模态基线，并在唤起任务中达到了 0.400 的相关性系数和在价值任务中达到了 0.353 的相关系数。

May, 2018