语言模型能在 YouTube 短视频中大笑吗?
通过编辑文本,我们研究了大型语言模型(LLMs)是否能够生成用于幽默检测的合成数据。我们对现有的人类数据集进行了基准测试,并展示了当前的 LLMs 在判断幽默性和幽默检测的下游任务中,能够令人印象深刻地去除笑话。我们还将我们的方法扩展到了一个混合编码的英文 - 印地语幽默数据集,发现 GPT-4 的合成数据得到了双语注释者的高评价,并为幽默分类器提供了具有挑战性的对抗性例子。
Feb, 2024
通过跨和自注意力模型,FunnyNet-W 使用视频中的视觉、音频和文本数据,预测出有趣的时刻,同时提出了一种无监督方法来获取训练标签。实验结果表明,FunnyNet-W 成功地利用了视觉、听觉和文本线索来识别有趣的时刻,并在各个数据集上创造了有趣时刻检测的新的最佳成果。
Jan, 2024
人工智能在社交智能方面的挑战仍然存在,本研究提出了解释视频中人们笑声背后原因的新任务,并提出了一个包含视频和语言描述的数据集,通过利用大型语言模型的推理能力,生成了可以解释笑声的合理解释,进一步探究了该方法在其他视频理解任务中的可扩展性。
Dec, 2023
本文介绍了一种称为 UR-FUNNY 的多模态数据集,该数据集开辟了解析表达幽默的多模态语言的研究领域,从而为自然语言处理社区提供了多模态幽默检测的框架。
Apr, 2019
MovieLLM 提出了一种新颖的框架,利用 GPT-4 和文本到图像模型生成详细的脚本和对应的视觉,从而创造出长视频的合成高质量数据。该方法通过解决数据稀缺和偏见等问题,显著提高了多模态模型对复杂视频叙事的理解能力,克服了现有数据集的限制。
Mar, 2024
提出了一种新颖的两分支分层模型用于短视频幽默检测 (SVHD),命名为 Comment-aided Video-Language Alignment (CVLA),该模型通过数据增强的多模态对比性预训练,在各种模态通道上对原始信号进行操作,并通过在一致的语义空间中对齐视频和语言组件,得到合适的多模态表示。实验结果表明,CVLA 在 DY11k 和 UR-FUNNY 两个幽默检测数据集上远远超越了最先进的方法和几种竞争性基准方法。
Feb, 2024
本文介绍了一种新的 Passau-SFCH 数据集,用于幽默和其情感和方向的自动分析,研究结果表明,对于幽默和其情感的自动分析,面部表情最有潜力,而文本特征最适合模拟幽默方向。
Sep, 2022
我们提供了一个独特的多模态偏好数据集,用于创意任务,在过去的八年中通过众包整理了超过 250 万个标注为《纽约客》周刊漫画字幕比赛的超过 2.2 亿个人类评分。通过结合 GPT4 和人类判断,建立了基于排名的评估策略,我们对模型生成的字幕质量提出了新的评估标准。实验证明了当前的 Fine-Tuning 方法在创意任务中的局限性,并且我们展示了即使是 GPT4 和 Claude 这样的最先进模型在生成幽默字幕方面也不及顶级人类参赛者。经过这项大规模的数据收集工作,我们将整个偏好数据集释放给研究界,促进 AI 幽默生成和评估的进一步发展。
Jun, 2024
利用促发实验,探索 ChatGPT 的幽默感,发现其不能生成新的笑话,但能够解释 、分类有效的笑话,对于无效笑话则提供虚构解释。ChatGPT 还没有完全解决计算幽默的问题,但是它可以成为 “有趣” 机器的一大飞跃。
Jun, 2023
在本文中,我们针对社交媒体的编辑短视频构建了一个视频问答基准(称为 EditVid-QA),涵盖了四个典型的编辑类别,即特效、搞笑、网络迷因和游戏。我们的研究表明,现有的视频 LMMs 在编辑视频上表现较差,存在领域差距。为了提高 LMMs 的泛化能力,我们以 Panda-70M/WebVid 原始视频和小规模的 TikTok/CapCut 编辑视频为基础,收集了所提出基准的训练集,从而提升了在 EditVid-QA 基准上的性能。同时,我们还发现了现有评估协议中的一个严重问题,即使用 GPT-3.5 judge 的 “sorry” 攻击,为了避免这种攻击,我们使用了 GPT-4 judge 和关键词过滤来评估结果。该数据集仅供学术目的发布。
Jun, 2024