- Tarsier:训练和评估大型视频描述模型的方案
通过 Tarsier 模型,使用 CLIP-ViT 对视频帧进行编码并利用 LLM 建模时间关系,实现精细级视频描述,同时在多个公共基准测试中达到了新的最佳结果,并提供了一个新的用于评估视频描述模型的基准数据集及专门设计的评估方法。
- CLearViD: 视频描述的课程学习
CLearViD 是一种基于 Transformer 的视频描述生成模型,利用课程学习方法逐渐暴露模型于更具挑战性的样本和逐步降低网络容量,从而学习到更具鲁棒性和泛化性的特征,并利用 Mish 激活函数来缓解梯度消失问题。实验证明了该模型在 - 为实时足球解说生成挑战性的知识驱动视频字幕基准而设定的目标
本研究提出了 GOAL 基准测试,通过 22k 个句子和 42k 个知识三元组,对超过 8.9k 个足球视频剪辑进行挑战性的新任务设置,即基于知识的视频字幕生成,旨在生成关于特定领域场景的生动、细致的视频描述,为自动体育叙述等领域提供了广泛 - ECCV通过多模态合作对话代理描述未见过的视频
该研究介绍了一个名为视频描述的新任务,其中两个多模态合作对话代理的终极目标是一个会话代理基于对话和两个静态帧来描述未见过的视频,为了帮助一个代理更好地描述视频,提出了一个具有动态对话历史更新学习机制的 QA - 合作网络来从一个已经看过整个 - CVPR基于实况视频描述
该文介绍了利用视频中物体的 bounding box 将描述影片的句子与影片中的客观证据联系起来,并给出了一个能够利用 bounding box 的词语注释的视频描述模型,其在视频描述、视频段落描述和图像描述上均表现出了最先进的性能和更好的 - CVPR多句视频描述的对抗性推理
本研究提出使用对抗技术在推断过程中设计鉴别器来促进更好的多句子视频描述,并提出一个多鉴别器 “混合” 设计,其中每个鉴别器针对说明书的一个方面,以评估三个标准:与视频的视觉相关性、语言多样性和流畅度以及句子间的连贯性。该方法通过对流行的 A - 一份关于视频描述方法、数据集和评估指标的调查
本文综述了视频描述领域的最新发展,关注于深度学习模型,并对基准数据集和评估指标进行比较和分析,同时指出当前视频描述领域仍然面临着诸多挑战。
- DSTC7 的音视频场景感知对话(AVSD)竞赛
该研究论文介绍了一种基于多个研究领域的技术相互整合的新型场景感知对话系统,同时提出了基于音视频的场景感知对话系统 (AVSD) 挑战与数据集,该挑战要求参赛者构建一个能够对输入视频进行对话响应的系统。
- MM基于时间连接序列的自我中心视频描述
本研究旨在利用一种新的方法,即多态输入的注意力循环网络,来描述自我中心影像序列的故事情节,并发布了第一个自我中心影像序列描述数据集,该方法的表现优于传统的注意力编码器 - 解码器方法。
- CVPR基于注意力的多模态融合视频描述
本文提出了一种称为多模态注意力的方法,可以针对图像特征、运动特征和音频特征进行选择性关注,以促进视频描述的多模态信息融合,并在 Youtube2Text 数据集上取得了竞争状态 - of-the-art 的结果。
- EMNLP基于文本挖掘的语言知识提升的 LSTM 视频描述
本文探讨了如何从大型文本语料库中挖掘语言知识以帮助生成视频的自然语言描述,并将神经语言模型和分布式语义训练应用于最近的基于 LSTM 的视频描述体系结构。我们在一组 Youtube 视频和两个大型电影描述数据集上评估了我们的方法,在改善语法 - 电影描述的长短故事
本文研究使用图像及视频描述辅助盲人及人机交互的应用。通过使用预训练的对象分类器 CNNs 以及 LSTMs,学习生成描述的算法,并在 MPII-MD 数据集上获得了目前最佳性能。
- ICCV序列到序列 -- 视频到文本
该文章介绍了一种基于序列到序列模型和 LSTM 的视频描述方法,利用时间结构,将视频帧序列与单词序列相关联来生成视频描述,同时该模型能够学习视频帧的时间结构和所生成句子的语言模型。
- ICCV利用时间结构描述视频
这篇论文提出了一种基于循环神经网络和 3-D 卷积神经网络以及时间注意力机制的视频自动描述方法,并在 Youtube2Text 数据集上的 BLEU 和 METEOR 度量标准上超过了当前最先进的结果,并在更大更具挑战性的配对视频和自然语言 - ACL使用深度递归神经网络将视频翻译为自然语言
本篇论文提出直接利用统一深度神经网络将视频转换为句子的方法,并通过将知识从含标记种类超过 120 万张图像和带字幕的超过 100,000 张图像中迁移而创建具有大型词汇库的开放域视频句子描述。通过与语言生成度量,主语,动词和宾语预测准确度以