连接视觉和语言：基于视频本地化叙述的研究

CVPRFeb, 2023

连接视觉和语言：基于视频本地化叙述的研究

Connecting Vision and Language with Video Localized Narratives

Paul Voigtlaender, Soravit Changpinyo, Jordi Pont-Tuset, Radu Soricut, Vittorio Ferrari

TL;DR本文提出了一种新形式的多模态视频注释方法：基于视频的定位叙事。在此方法中，注释员不仅可以说出视频中发生的事件，而且还可以使用鼠标追踪分段来定位句子的表示部分。同时，作者采用了该方法对三个数据集中的 20,000 个视频进行了注释，并提供了视频故事理解和视频问题回答任务的评测基准以及来自强基准模型的参考结果。

Abstract

We propose video localized narratives, a new form of multimodal video annotations connecting vision and language. In the original Localized Narratives, annotators speak and move their mouse simultaneously on an image, thus grounding each word with a mouse trace segment. However, this i

video localized narratives multimodal video annotations storytelling video narrative grounding video question answering

发现论文，激发创造

连接视觉和语言的局部叙述

我们提出了一种新的多模态图像标注方法，称为定位叙述，将视觉和语言进行连接。通过请求标注者在将鼠标指针悬停在要描述的区域的同时用语音来描述图像，我们实现了对每个单词进行定位。该方法经过全面的分析和外部数据验证，具有高度准确性和生产效率，并且在受控图像字幕应用程序中具有实用性。

Dec, 2019

使用自然语言的语言 - 视觉嵌入学习以理解电影

本文研究了三种不同的联合语言 - 视觉神经网络模型，使用 LSMDC16 电影数据集评估模型在自然语言图像 / 视频注释和检索任务中的性能，并在标准排名和多项选择测试中取得优异的结果。

Sep, 2016

电影故事多语种概要：用于故事理解的数据集

构建大规模多语言视频故事数据集 M-SYMON，包含 13166 个影片摘要视频和 101.5 小时视频的精细视频文本对应注释。使用 SyMoN 人工标注数据训练的结果，在剪辑准确率和句子 IoU 得分上超过 SOTA 方法分别达到 15.7 和 16.2 个百分点，证明了注释的有效性。同时，我们提供了六种具有不同多语言训练策略的基线方法，比较它们在单语内和跨语言设置中的性能，展示了多语言视频文本对齐的挑战。

Jun, 2024

无监督的视频视觉定位词汇翻译

利用视觉基础方法，通过学习不成对指导视频中讲解的语言产生共同的视觉表示方法。我们可以将这种共同的表示方法用于单词映射和跨语言翻译，尤其是对于 “视觉” 单词。同时，我们的基于视觉 - 文本的转换算法 MUVE 提高了非监督文本翻译技术的性能，特别是处理少见单词和低资源语言数据时。

Mar, 2020

超越字幕到叙事：视频多句子字幕

本研究提出了一种视频片段分割、多帧生成多个盛传、并采用自然语言技术将其连接成故事式视频字幕的方法，实现丰富内容的视频字幕生成，结果表明该方法不需要显式输入视频级别特征即可提供丰富内容，与最新技术方法相同。

May, 2016

以人物为中心的叙事

该研究利用 VIST 数据集，提出了一个模型，通过隐式学习提供的角色之间的关系，生成关注的角色的故事，旨在解决基于图像序列生成故事时，模型忽略可能存在的人和动物角色的问题。

Sep, 2019

视觉叙事

首个序列视觉语言数据集的发布，这个数据集中包含 81,743 张唯一图片和 20,211 个序列，旨在探讨其在视觉叙事任务中的应用，建立多个强劲的基础模型以及推动基于自动度量标准的进展，为模拟具象和比喻、社交语言提供了可能，从而推动人工智能不断向更接近人类理解的基于事件结构和主观表达的方向发展。

Apr, 2016

从原始感官输入中联合发现视觉对象和口语单词

本文针对语音与图像之间的语义关联关系，探讨了不需要传统监督方式的神经网络模型，并使用了 Places 205 和 ADE20k 数据集来验证模型，在不太需要标签、分割或模态对齐的情况下可以实现语音和图像的自动检索、详细定位以及进行时间、空间上的隐含的物体和单词检测。

Apr, 2018

NaQ: 利用叙述作为查询来监督情节记忆

本研究提出使用基于自然语言查询的 Narrations-as-Queries（NaQ）数据增强策略，用于训练视频查询定位模型，并通过在 Ego4D 基准测试中进行验证表明，该方法带来了突出的 NLQ 结果，甚至达到了其他竞赛获胜者所未能达到的最佳结果。

Jan, 2023

局部 - 全局视频文本交互的时间对齐

该论文提出了一种基于回归模型的方法，使用文本查询中的语义短语提取中间特征，以反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互，通过在多个层面上从局部到全局利用上下文信息，有效地预测目标时间区间。实验证明，该方法在 Charades-STA 和 ActivityNet Captions 数据集上的表现明显优于现有方法。

Apr, 2020