视频字幕、检索和问答的端到端概念词检测

CVPROct, 2016

视频字幕、检索和问答的端到端概念词检测

End-to-end Concept Word Detection for Video Captioning, Retrieval, and Question Answering

Youngjae Yu, Hyungjin Ko, Jongwook Choi, Gunhee Kim

TL;DR本文提出了一种高级概念词探测器，可以与任何语言生成模型集成。它以视频为输入，并生成一个概念词清单作为语言生成模型的有用语义先验。所提出的词探测器有两个重要特征。它不需要任何外部知识源进行训练；它可以与任何视频到语言模型联合进行端对端的训练。为了最大化检测到的词的价值，我们还开发了一种语义关注机制，它有选择性地聚焦于检测到的概念词，并将它们与语言模型中的词编码和译码融合。为了证明所提出的方法确实改善了多个视频到语言任务的性能，我们参与了 LSMDC 2016 的四个任务。我们的方法在其中三个任务中实现了最佳准确度，包括填空、多项选择测试和电影检索。我们还获得了其他任务（电影描述）的可比性能。

Abstract

We propose a high-level concept word detector that can be integrated with any video-to-language models. It takes a video as input and generates a list of concept words as useful semantic priors for language gener

video-to-language models concept words semantic attention mechanism end-to-end training lsmdc 2016

发现论文，激发创造

端到端视频字幕生成

本文提出了采用端到端训练的方法来实现视频描述生成，并在微软研究视频描述数据集 (MSVD) 和微软视频到文本数据集 (MSR-VTT) 上取得了最新的最优表现。

Apr, 2019

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

通过生成式标题和多词概念库改进用于即席视频搜索的可解释嵌入

通过构建新数据集和发展多词概念库，本文解决了现有方法在出现未见查询和词汇量问题上的瓶颈，实验结果显示以上所述元素的整合将 AVS 方法在 MSRVTT 数据集上的 R@1 性能翻倍，并将在 2016-2023 年（八年）TRECVid AVS 查询集的 xinfAP 增加了 2% 到 77%，平均约为 20%。

Apr, 2024

一种端到端的视频文本检测器，具备在线跟踪功能

本文介绍一种基于 ConvLSTM 和在线跟踪的视频文本检测方法，将检测和跟踪的两个任务结合起来，提高了检测精度，降低了计算成本，并且实验表明该方法在 ICDAR2013 Video、Minetto 和 YVT 等数据集上均有极大的优势。

Aug, 2019

多层次语言和视觉融合的文本到视频检索

本文提出了一种多层级的模型，早期并更紧密地集成了视觉和语言特性，用于解决从未剪辑的视频中基于文本的活动检索问题，其中包括注入文本特性以加速处理和提高性能，以及利用视觉特征在循环神经网络中模拟查询句子的单词级处理以学习细粒度的相似性度量，同时采用多任务损失函数。该方法在 Charades-STA 和 ActivityNet Captions 两个具有挑战性的基准测试中表现出较高效果。

Apr, 2018

将语义概念注入端到端图像字幕生成

本文提出了一种全新的视觉变换器（Vision transformer-based）图像标题模型 ViTCAP，使用网格表示而不提取区域特征。为了提高性能，引入了基于 Vision Transformer 的概念令牌网络（CTN），可以高效地预测语义概念，并将其整合到端到端的标题生成中，从而实现竞争性能，同时简化了结构。

Dec, 2021

可解释的嵌入式技术用于即时视频搜索

通过集成特征嵌入和概念解释到神经网络中进行统一的双重任务学习，本论文实现了将嵌入与语义概念关联，作为视频内容解释的新方法，并在 TRECVid 基准数据集上证明了搜索结果的显著提升。

Feb, 2024

视频字幕解码器的深度挖掘

本篇研究针对视频字幕模型的解码问题，通过三种技术改进模型的性能，包括使用变分 Dropout 和层归一化改善过拟合问题、提出在线评估模型性能以选择最佳测试检查点的方法、提出专业学习的新训练策略。在 Microsoft Research Video Description Corpus (MSVD) 和 MSR-Video to Text (MSR-VTT) 数据集上进行的实验证明，相较于之前最先进的模型，我们的模型在 BLEU、CIDEr、METEOR 和 ROUGE-L 指标上获得了显著的成果，其中在 MSVD 数据集上提升了高达 18%，在 MSR-VTT 数据集上提升了 3.5%。

Jan, 2020

选择相关的网络训练概念进行自动化事件检索

通过构建配对概念，通过消除不可能对检索有帮助的概念来修剪，该方法解决了自动概念发现和培训中出现的问题，并通过解决视觉和领域适应问题展示了在 TRECVID MED 13 数据集上相对于其他基于视觉的系统的大幅度改进。

Sep, 2015

LEWIS: 单词图像的潜在嵌入及其语义

本文提出一种使用卷积神经网络和加权排名损失函数的方法，从单词图像中直接预测语义概念，实现文本识别和检索中的语义关联，实验证明该方法的正确性和高度准确性。

Sep, 2015