语言模型能在 YouTube 短视频中大笑吗？

Oct, 2023

语言模型能在 YouTube 短视频中大笑吗？

Can Language Models Laugh at YouTube Short-form Videos?

Dayoon Ko, Sangho Lee, Gunhee Kim

TL;DR使用 GPT-3.5 过滤与嘲笑相关的语言与视觉元素，通过时间戳和文字解释为每个视频注释，以提高大型语言模型对视频幽默的理解。

Abstract

As short-form funny videos on social networks are gaining popularity, it becomes demanding for AI models to understand them for better communication with humans. Unfortunately, previous video humor datasets targe

funny videos multimodal understanding video humor exfuntube large language models

发现论文，激发创造

认真对待幽默：使用无趣的大型语言模型构建幽默数据集

通过编辑文本，我们研究了大型语言模型（LLMs）是否能够生成用于幽默检测的合成数据。我们对现有的人类数据集进行了基准测试，并展示了当前的 LLMs 在判断幽默性和幽默检测的下游任务中，能够令人印象深刻地去除笑话。我们还将我们的方法扩展到了一个混合编码的英文 - 印地语幽默数据集，发现 GPT-4 的合成数据得到了双语注释者的高评价，并为幽默分类器提供了具有挑战性的对抗性例子。

Feb, 2024

FunnyNet-W：野外视频中的多模态学习有趣时刻

通过跨和自注意力模型，FunnyNet-W 使用视频中的视觉、音频和文本数据，预测出有趣的时刻，同时提出了一种无监督方法来获取训练标签。实验结果表明，FunnyNet-W 成功地利用了视觉、听觉和文本线索来识别有趣的时刻，并在各个数据集上创造了有趣时刻检测的新的最佳成果。

Jan, 2024

SMILE: 多模态视频中笑声理解的数据集与语言模型

人工智能在社交智能方面的挑战仍然存在，本研究提出了解释视频中人们笑声背后原因的新任务，并提出了一个包含视频和语言描述的数据集，通过利用大型语言模型的推理能力，生成了可以解释笑声的合理解释，进一步探究了该方法在其他视频理解任务中的可扩展性。

Dec, 2023

UR-FUNNY：一个用于理解幽默的多模态语言数据集

本文介绍了一种称为 UR-FUNNY 的多模态数据集，该数据集开辟了解析表达幽默的多模态语言的研究领域，从而为自然语言处理社区提供了多模态幽默检测的框架。

Apr, 2019

MovieLLM：使用 AI 生成的影片增强长视频理解能力

MovieLLM 提出了一种新颖的框架，利用 GPT-4 和文本到图像模型生成详细的脚本和对应的视觉，从而创造出长视频的合成高质量数据。该方法通过解决数据稀缺和偏见等问题，显著提高了多模态模型对复杂视频叙事的理解能力，克服了现有数据集的限制。

Mar, 2024

透过对比预训练提升的评论辅助视频语言对齐用于短视频幽默检测

提出了一种新颖的两分支分层模型用于短视频幽默检测 (SVHD)，命名为 Comment-aided Video-Language Alignment (CVLA)，该模型通过数据增强的多模态对比性预训练，在各种模态通道上对原始信号进行操作，并通过在一致的语义空间中对齐视频和语言组件，得到合适的多模态表示。实验结果表明，CVLA 在 DY11k 和 UR-FUNNY 两个幽默检测数据集上远远超越了最先进的方法和几种竞争性基准方法。

Feb, 2024

自发幽默的多模态预测：一个新颖的数据集和初步结果

本文介绍了一种新的 Passau-SFCH 数据集，用于幽默和其情感和方向的自动分析，研究结果表明，对于幽默和其情感的自动分析，面部表情最有潜力，而文本特征最适合模拟幽默方向。

Sep, 2022

人工智能中的幽默：巨规模众包偏好和漫画字幕基准

我们提供了一个独特的多模态偏好数据集，用于创意任务，在过去的八年中通过众包整理了超过 250 万个标注为《纽约客》周刊漫画字幕比赛的超过 2.2 亿个人类评分。通过结合 GPT4 和人类判断，建立了基于排名的评估策略，我们对模型生成的字幕质量提出了新的评估标准。实验证明了当前的 Fine-Tuning 方法在创意任务中的局限性，并且我们展示了即使是 GPT4 和 Claude 这样的最先进模型在生成幽默字幕方面也不及顶级人类参赛者。经过这项大规模的数据收集工作，我们将整个偏好数据集释放给研究界，促进 AI 幽默生成和评估的进一步发展。

Jun, 2024

ChatGPT 很有趣，但并不是滑稽！幽默仍然是具有挑战性的大型语言模型

利用促发实验，探索 ChatGPT 的幽默感，发现其不能生成新的笑话，但能够解释、分类有效的笑话，对于无效笑话则提供虚构解释。ChatGPT 还没有完全解决计算幽默的问题，但是它可以成为 “有趣” 机器的一大飞跃。

Jun, 2023

超越原始视频：利用大型多模态模型理解编辑视频

在本文中，我们针对社交媒体的编辑短视频构建了一个视频问答基准（称为 EditVid-QA），涵盖了四个典型的编辑类别，即特效、搞笑、网络迷因和游戏。我们的研究表明，现有的视频 LMMs 在编辑视频上表现较差，存在领域差距。为了提高 LMMs 的泛化能力，我们以 Panda-70M/WebVid 原始视频和小规模的 TikTok/CapCut 编辑视频为基础，收集了所提出基准的训练集，从而提升了在 EditVid-QA 基准上的性能。同时，我们还发现了现有评估协议中的一个严重问题，即使用 GPT-3.5 judge 的 “sorry” 攻击，为了避免这种攻击，我们使用了 GPT-4 judge 和关键词过滤来评估结果。该数据集仅供学术目的发布。

Jun, 2024