该文介绍了利用视频中物体的 bounding box 将描述影片的句子与影片中的客观证据联系起来,并给出了一个能够利用 bounding box 的词语注释的视频描述模型,其在视频描述、视频段落描述和图像描述上均表现出了最先进的性能和更好的联系性。
Dec, 2018
这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕,并且通过使用双编码器来对音频和图像进行编码,使用掩码边界软最大损失对这些模型进行微调,并在 Flickr8k 音频字幕语料库上实现了最新的结果。
Sep, 2019
通过使用 MT 和 PVDC 生成视频字幕,我们提出了一个从自动生成的视频字幕中提取语义元数据的框架。 我们的实验表明,可以从生成的字幕中提取实体,属性,实体之间的关系和视频类别。
Nov, 2022
该研究试图通过将图像字幕数据集中的字幕转移到视频剪辑中,从而消除了在文本 - 视频检索和文本 - 音频检索中缺乏大规模训练数据的难题,并创建了一个大规模音频 - 视频字幕数据集,使得使用这个数据集能够训练出性能优异的多模态转换模型,并在视频检索和视频字幕任务中达到或超越 HowTo100M 预训练 20 倍剪辑所能达到的性能,并且能够实现文本 - 音频预训练,并在音频检索任务中达到最先进的结果。
Apr, 2022
该论文提出了一种基于 DNN 技术的语音识别系统及 RNN 语言模型来提高视频自动生成的字幕准确性,通过对视频中自动检测到的物体或场景的条件来减少困惑度和提高转录,可以应用于机器人、人机交互及音视频存档索引等领域。
Dec, 2017
这篇论文中,采用图像与未翻译口头说明的组合,研究计算机视觉系统是否可以用于获取语音的文本标签,并使用图片到词语多标签视觉分类器标记图像的软文本标签。然后,训练神经网络将语音映射到这些软目标。结果表明,语音识别系统能够预测话语中出现的单词,并作为口头词组分类器,同时还经常混淆语义相关的词,例如 “男人” 和 “人” ,使其效果更好作为语义关键词识别器。
Mar, 2017
通过采集 70M 个公开的视频并使用相关的文本描述进行自我监督训练,本文提出了一种基于文本的学习视频表示的方法,证明了这种方法在预训练视频表示中比现有的方法更有效。
Jul, 2020
本研究提出了一种基于深度学习的无监督的文本 grounding(文本与图像上物体的对应关系)方法,并在 ReferIt Game 数据集与 Flickr30k 数据集上分别超过了基线 7.98% 和 6.96%。
Mar, 2018
提出了一种基于多模态学习和叙述监督的视频检测模型,可以从嘈杂的音频叙述中学习动作检测,从而降低标注的费用。
May, 2022
本文提出一种使用图像标题对来进行弱监督的目标检测和短语定位的方法,并利用视觉语言(VL)模型和自监督视觉变压器(ViTs)进行实验,取得了较好的结果。
Jun, 2023