从烹饪视频中提取结构化程序化知识的基准

EMNLPMay, 2020

从烹饪视频中提取结构化程序化知识的基准

A Benchmark for Structured Procedural Knowledge Extraction from Cooking Videos

Frank F. Xu, Lei Ji, Botian Shi, Junyi Du, Graham Neubig...

TL;DR本文提出了从烹饪视频中提取结构化过程知识的基准测试，研究了现有模式的性能。

Abstract

Watching instructional videos are often used to learn about procedures. Video captioning is one way of automatically collecting such knowledge. However, it provides only an indirect, overall evaluation of multimodal models with no finer-grained quantitative measure of what they have le

instructional videos video captioning procedural knowledge structured knowledge cooking videos

发现论文，激发创造

从网络教学视频中实现自动学习程序

本文提出了使用长视频分类和描述学习人类共识过程结构的方法，利用 YouCook2 数据集和基于段的递归网络生成过程段。该方法可用于向其他任务提供预处理，如密集视频字幕和事件解析，并在过程分割中优于竞争基线。

Mar, 2017

利用远程监督学习识别过程性活动

本文研究了从长达数分钟的视频中识别精细、多步骤活动的问题，通过远程监督的语言模型方法，基于 wikiHow 的文本数据库自动标注视频中的步骤，并在识别过程中考虑了它们的时间依赖性，实现了较高的泛化性能。

Jan, 2022

从说明视频和其叙述中学习过程感知视频表示

研究利用大量网络教学视频和其解说学习视频表示方法，以编码动作步骤及其时间排序，推动步骤分类和预测等领域的发展。通过深度概率模型同时学习视频表示和时间依赖关系，且在 COIN 和 EPIC-Kitchens 等数据集上，具有比同类研究更明显的提升。同时，该研究对于不完整步骤的步骤推测也有良好的表现。

Mar, 2023

为密集视频字幕编写进行多模态预训练

本文介绍了在视频学习中生成元信息的困难性，提出了一种基于时间戳注释的新数据集 Video Timeline Tags（ViTT）以及采用多模态序列预训练策略来预训练和微调密集视频字幕模型，证明了该模型可以很好地泛化和适用于各种各样的教学视频。

Nov, 2020

面向操作流程的指导视频理解预训练

本研究旨在利用视频表示学习技术，通过构建 Procedural Knowledge Graph (PKG) 生成伪标签来训练视频表示模型，以提高多种程序理解任务的精度。其中 PKG 结构由通过无标签的教学视频和基于文本的程序知识库信息融合而成，训练数据使用了四个新的预训练目标。最终模型 Paprika 在 12 个任务上实现了高达 11.23% 的精度提升。

Mar, 2023

创建用于序列任务的多模态对齐数据集的方法

通过使用无监督算法和图算法对文本和视频食谱的多模态数据进行对齐，研究了如何自动提取感性解释以说明现实世界中的复杂过程，构建了包含 4,262 道菜品的 Microsoft Research Multimodal Aligned Recipe Corpus 数据集。

May, 2020

无监督视频集合中的语义行为发现

通过视觉和语言提示的联合生成模型，对互联网上海量的指示视频进行语义步骤解析，为每个语义步骤和视频段提供文本描述。大量的 YouTube 视频验证了该方法能够准确发现各种任务的语义正确指示。

May, 2016

使用文本、语音和视觉解读烹饪视频

本研究提出了一种利用隐马尔可夫模型与深度卷积神经网络对菜谱中的指示语音逐一进行对齐的方法，在烹饪方面取得了较好的效果，可实现自动加入关键帧及视频事件搜索等功能。

Mar, 2015

从未经筛选的教育视频中的视觉表示端到端学习

本文介绍了一种新的学习方法，MIL-NCE, 用于从讲述视频中学习强大的视频表示，并能够在不需要手动注释的情况下进行。该方法通过对齐不对称的讲述视频，有效地学习了视频表示。作者在 HMDB-51、UCF-101、Kinetics-700 等多个数据集上进行了评估，证明了该方法优于已发表的自监督方法和多个全监督基准线的表现。

Dec, 2019

指令视频中的无监督视觉语言引用解析

通过学习联合视觉和语言模型，我们提出了一种无监督方法来解决教育视频中的实体指代问题，具有可以显著提高指代解析的能力。

Mar, 2017