多模态新闻理解与专业标注视频

Jan, 2024

Multi-modal News Understanding with Professionally Labelled Videos (ReutersViLNews)

Shih-Han Chou, Matthew Kowal, Yasmin Niknam, Diana Moyano, Shayaan Mehdi...

TL;DR通过对 ReutersViLNews 数据集进行大规模分析，我们发现新闻导向的视频对当前视频语言理解算法构成了重大挑战，并提供了未来解决 ReutersViLNews 数据集的方法。

Abstract

While progress has been made in the domain of video-language understanding, current state-of-the-art algorithms are still limited in their ability to understand videos at high levels of abstraction, such as news-oriente

video-language understanding news-oriented videos reutersvilnews dataset long-form news video-language tasks

发现论文，激发创造

多语种事件视频与对齐自然文本

构建了 MultiVENT 数据集，该数据集包括多语言、以事件为中心的视频，用于分析在线新闻视频的状态，并利用其构建强大、事实准确的模型，并提供了一种用于信息检索的复杂、多语言视频检索模型作为基准。

Jul, 2023

针对深度视频理解的查询感知长视频定位和关系判别

本文介绍了一种基于查询的长视频定位和关系判别方法，利用图像语言预训练模型来选择与查询相关的帧，免去了构建完整的电影级知识图谱的需要。该方法在两组电影级查询中取得了第一和第四名的位置，并且经过充分的实验证明其效果和鲁棒性。

Oct, 2023

数百万视频上的视觉语言模型蒸馏

本研究利用合成的教学数据对图像语言基准进行微调，生成高质量的视频标题，构建适应视频和语言的模型，并在多个视频 - 语言基准上取得了显著结果。

Jan, 2024

走向全面的语言 - 视频表示：语言模型增强的 MSR-Video 到文本数据集

通过自动增强语言 - 视频数据集和多方位视频字幕生成方法，提高语言 - 视频表示能力，并通过多模态检索模型验证其有效性。

Jun, 2024

新闻故事：用视觉摘要来说明文章

该研究探索了一个新的问题，即学习对不同长度和数量的图像文本具有强鲁棒性的自我监督视觉语言表示法，其介绍了一个包括超过 31M 篇文章，22M 张图片和 1M 个视频的大规模多模态数据集，并表明最先进的图像文本对齐方法不能很好地处理带有多张图像和更长篇幅的叙述，且还提出了一种直观的基线方法，在 GoodNews 数据集上零样本图像集检索表现比这些方法高出 10%。

Jul, 2022

VIOLIN：一个大规模的视频和语言推理数据集

本文介绍了一个新的任务 —— 视频与语言推理，用于联合多模态理解视频和文本，提出了一个名为 “Violin” 的大规模数据集并对其进行了分析，并对该任务进行了广泛评估。

Mar, 2020

语言作为媒介：通过仅文本进行多模态视频分类

通过利用大型语言模型（如 GPT-3.5 或 Llama2）的广泛知识，结合 BLIP-2、Whisper 和 ImageBind 获取的视觉和听觉多模态文本描述，我们提出了一种新的模型不可知方法，用于生成捕捉多模态视频信息的详细文本描述。我们的评估结果表明，这种基于文本描述的方法在视频理解任务中取得了成功，为多模态分类提供了一个有前景的新研究方向。

Sep, 2023

利用大规模视频转录进展高分辨率视频语言表示

本文提出了一种高分辨率和多样化的视频 - 语言预训练模型（HD-VILA），它利用一个混合 Transformer 学习丰富的时空特征以及文本特征的交互，取得了 10 个 VL 理解任务和 2 个文本到视觉生成任务的最新结果

Nov, 2021

融合音频、文本和视觉特征进行新闻视频情感分析

该论文提出了一种新颖的方法来执行新闻视频的情感分析，基于从内容中提取的音频、文字和视觉线索的融合。该方法旨在为构建媒体宇宙的 ethos（身份）的 semiodiscoursive 研究做出贡献，我们计算了从面部表情中识别出的视觉强度、参与者的声音调制、文本语音和情感得分（极性）。实验结果显示，该方法在情感分类任务中达到了高达 84％的准确度，因此在新闻界中具有极高的应用潜力。

Apr, 2016

视频与语言未来事件预测：下一步可能发生什么？

本文提供名为 VLEP 的视频和语言事件预测数据集，并探讨 AI 模型是否能够学习进行这样的多模态常识性下一个事件预测。研究表明，视频、对话和常识性知识对于此挑战任务很有用，并且与 VLEP 上高人类表现相比，我们的模型提供了一个良好的起点，但仍有大量的改进空间。

Oct, 2020