通过视觉和语言提示的联合生成模型,对互联网上海量的指示视频进行语义步骤解析,为每个语义步骤和视频段提供文本描述。大量的 YouTube 视频验证了该方法能够准确发现各种任务的语义正确指示。
May, 2016
利用视觉基础方法,通过学习不成对指导视频中讲解的语言产生共同的视觉表示方法。我们可以将这种共同的表示方法用于单词映射和跨语言翻译,尤其是对于 “视觉” 单词。同时,我们的基于视觉 - 文本的转换算法 MUVE 提高了非监督文本翻译技术的性能,特别是处理少见单词和低资源语言数据时。
Mar, 2020
本研究通过建立基于 BERT 模型的视觉 - 语言联合模型学习高级特征,提出了一种在无显式监督下学习高级特征的方法,并将其应用于多项任务,如动作分类和视频字幕生成等,取得了优越的成绩。
Apr, 2019
本文提出一种基于非监督学习的方法,通过集合指导语音和视频,可以自动地学习完成某项任务的主要步骤,例如更换汽车轮胎。通过应用两个聚类问题,同时解决文本和视频中的信息,使它们连接在一起,得出在两种情况下都具有一致性的主要步骤。本文提出的方法可以自动地在输入视频中发现和定位处于任务中的主要步骤。作者还采集和注解了一个包含旨在模拟真实场景的任务的挑战数据集。
Jun, 2015
本文介绍了一种新的学习方法,MIL-NCE, 用于从讲述视频中学习强大的视频表示,并能够在不需要手动注释的情况下进行。该方法通过对齐不对称的讲述视频,有效地学习了视频表示。作者在 HMDB-51、UCF-101、Kinetics-700 等多个数据集上进行了评估,证明了该方法优于已发表的自监督方法和多个全监督基准线的表现。
Dec, 2019
通过利用现有步骤注释和配套叙述,我们提出了一种方法,首先自动生成大量涉及来自 HowTo100M 的视频对的视觉指导调优数据,然后训练一个视频修饰的语言模型以联合推理多个原始视频,以识别视频对之间的差异并根据这些差异的严重程度对视频进行排名,显示出在多个视频上进行一般推理的有希望能力。
Apr, 2024
通过采集 70M 个公开的视频并使用相关的文本描述进行自我监督训练,本文提出了一种基于文本的学习视频表示的方法,证明了这种方法在预训练视频表示中比现有的方法更有效。
Jul, 2020
这篇论文探讨了自监督学习模型在多语言环境下的应用,通过级联方法,将英语训练好的模型应用于日语视频和图片的字幕,取得了最新颖的表现。
Nov, 2021
研究利用大量网络教学视频和其解说学习视频表示方法,以编码动作步骤及其时间排序,推动步骤分类和预测等领域的发展。通过深度概率模型同时学习视频表示和时间依赖关系,且在 COIN 和 EPIC-Kitchens 等数据集上,具有比同类研究更明显的提升。同时,该研究对于不完整步骤的步骤推测也有良好的表现。
Mar, 2023
本文研究了视频和文字间松散对应情况下的视频辅助语法归纳方法,构建了新的模型并在大规模 YouTube 数据上进行训练,实现了在不同数据集上的强大性能表现,优于之前领先的系统。
Oct, 2022