走向全面的语言-视频表示：语言模型增强的MSR-Video到文本数据集

Jun, 2024

走向全面的语言-视频表示：语言模型增强的MSR-Video到文本数据集

Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset

Yuchen Yang, Yingxuan Duan

TL;DR通过自动增强语言-视频数据集和多方位视频字幕生成方法，提高语言-视频表示能力，并通过多模态检索模型验证其有效性。

Abstract

A more robust and holistic language-video representation is the key to pushing video understanding forward. Despite the improvement in training strategies, the quality of the →

发现论文，激发创造

基于文本挖掘的语言知识提升的LSTM视频描述

本文探讨了如何从大型文本语料库中挖掘语言知识以帮助生成视频的自然语言描述，并将神经语言模型和分布式语义训练应用于最近的基于LSTM的视频描述体系结构。我们在一组Youtube视频和两个大型电影描述数据集上评估了我们的方法，在改善语法正确性的同时适度提高了描述质量。

Apr, 2016

使用自然语言的语言-视觉嵌入学习以理解电影

本文研究了三种不同的联合语言-视觉神经网络模型，使用LSMDC16电影数据集评估模型在自然语言图像/视频注释和检索任务中的性能，并在标准排名和多项选择测试中取得优异的结果。

Sep, 2016

利用现有资源：使用协同信息源提取视频表示

该论文旨在将来自不同模态的视频信息压缩为单一、紧凑的表示形式，以用于自由格式文本查询的视频检索任务。通过运用预训练的语义嵌入、自动语音识别和光学字符识别等方法，采用协作专家模型来聚合信息，具有良好的检索性能。

Jul, 2019

利用大规模视频转录进展高分辨率视频语言表示

本文提出了一种高分辨率和多样化的视频-语言预训练模型（HD-VILA），它利用一个混合Transformer学习丰富的时空特征以及文本特征的交互，取得了10个VL理解任务和2个文本到视觉生成任务的最新结果

Nov, 2021

基于阅读策略的视觉表征学习用于文本至视频检索

本文主攻文本到视频检索任务中的视频表示学习，在此基础上提出了一种受人类阅读策略启发的视觉表征学习方法，经实验证明，在三个数据集上取得了最新的最优性能。

Jan, 2022

利用图像描述符的语言模型是强的少样本视频语言学习器

本文提出了通过图像和语言模型进行少样本学习的视频语言学习器（VidIL），它在视频描述、视频问答、视频描述检索和视频未来事件预测等多种视频语言任务中表现出强大的性能，并且能够在使用上下文中的几个例子来生成目标输出，进而大大提高视频未来事件预测的准确率。

May, 2022

用于多通道视频-语言检索的预训练对比模型的快速适应

探索多模态检索中利用预训练对比模型和文本符号融合信息的最佳方式，并发现用离散文本符号表示视频的方法取得最佳效果。

Jun, 2022

利用显式高层语义提升视频文本检索

本文提出了一种名为 HiSE 的视觉语言对齐模型，通过明确的高层语义信息来提高跨模态表示，结合图形推理技术来促进全局和离散高级语义之间的交互，通过在 MSR-VTT、MSVD 和 DiDeMo 等三个基准数据集上的广泛实验表明，我们的方法在 VTR 上实现了优于现有方法的性能表现。

Aug, 2022

视频CSR: 复杂视频摘要生成用于视觉-语言模型

我们提出了一个新的任务和人类标注的数据集，用于评估视觉语言模型对于生成视频剪辑的标题和摘要的能力，该数据集包含了4800个YouTube视频剪辑，时长在20-60秒之间，涵盖了广泛的主题和兴趣，对于视觉和听觉内容都进行了基于摘要的检索任务和基于标题和摘要的生成任务的评估，并提出了一个基础模型作为Video-CSR任务的基准，旨在成为大型语言模型和复杂多模态任务时代的有用评估集。

Oct, 2023

数百万视频上的视觉语言模型蒸馏

本研究利用合成的教学数据对图像语言基准进行微调，生成高质量的视频标题，构建适应视频和语言的模型，并在多个视频-语言基准上取得了显著结果。

Jan, 2024