使用文本、语音和视觉解读烹饪视频

ACLMar, 2015

使用文本、语音和视觉解读烹饪视频

What's Cookin'? Interpreting Cooking Videos using Text, Speech and Vision

Jonathan Malmaud, Jonathan Huang, Vivek Rathod, Nick Johnston, Andrew Rabinovich...

TL;DR本研究提出了一种利用隐马尔可夫模型与深度卷积神经网络对菜谱中的指示语音逐一进行对齐的方法，在烹饪方面取得了较好的效果，可实现自动加入关键帧及视频事件搜索等功能。

Abstract

We present a novel method for aligning a sequence of instructions to a video of someone carrying out a task. In particular, we focus on the cooking domain, where the instructions correspond to the recipe. Our technique relies on an →

instruction alignment cooking domain hmm deep convolutional neural networks recipe illustration

发现论文，激发创造

创建用于序列任务的多模态对齐数据集的方法

通过使用无监督算法和图算法对文本和视频食谱的多模态数据进行对齐，研究了如何自动提取感性解释以说明现实世界中的复杂过程，构建了包含 4,262 道菜品的 Microsoft Research Multimodal Aligned Recipe Corpus 数据集。

May, 2020

从烹饪视频中提取结构化程序化知识的基准

本文提出了从烹饪视频中提取结构化过程知识的基准测试，研究了现有模式的性能。

May, 2020

烹饪情境下的跨模态检索：学习语义文本 - 图像嵌入

本文提出了一种跨模态检索模型，采用视觉和文本数据对餐品及其食谱进行建模，并在包含近 100 万图像配方对的 Recipe1M 数据集上进行了验证，取得了比先前最先进模型更好的效果，并针对计算烹饪应用案例展示了质量结果。

Apr, 2018

CHEF: 跨模态层次嵌入用于食品领域检索

本文提出了一种新颖的跨模态学习框架来自动发现食谱中文本和图像的实体及其相应的重要性，并能在没有明确监督的情况下识别出食谱描述中的主要成分和烹饪动作，为跨模态检索和食谱适应任务提供更有意义的特征表示。

Feb, 2021

为密集视频字幕编写进行多模态预训练

本文介绍了在视频学习中生成元信息的困难性，提出了一种基于时间戳注释的新数据集 Video Timeline Tags（ViTT）以及采用多模态序列预训练策略来预训练和微调密集视频字幕模型，证明了该模型可以很好地泛化和适用于各种各样的教学视频。

Nov, 2020

多模式烹饪工作流程构建用于食谱

利用图形化方法描述菜谱的工作流程是一个需要常识推理的复杂任务。本文提出了一个基于神经网络技术的编码器 - 解码器模型，通过使用视觉和文本信息来构建食品制作工作流程。我们还构建了一个包含 9,850 道菜谱的大型数据集，采用该方法比手工特征提取能够显著提高 20% 以上的性能。

Aug, 2020

烹饪情境下的图像和菜谱检索

本文基于机器学习技术，提出了一种用于大规模检索任务的图片 - 食谱对齐方法，并在 Recipe1M 数据集上进行了实验，取得了最先进的成果。

May, 2018

从未分割的烹饪视频中生成食谱

本研究提出一种基于转换器的联合方法来生成食谱，该方法可以从未经分段的烹饪视频中提取关键事件并为其生成相关的句子，同时加入食材信息以提高准确性。实验证明该方法优于现有的传统方法且能够正确输出相关事件和句子。

Sep, 2022

深度图像至食谱翻译

深度图像到菜谱的翻译，是计算机视觉和自然语言生成的交叉领域，旨在弥合珍贵食物记忆与烹饪艺术之间的鸿沟。

Jul, 2024

食物图像转菜谱生成

该研究提出了一种针对食品计算领域的新型多模态方法（FIRE），该方法基于输入的食品图像生成食品标题、配料和烹饪说明，并展示了与大型语言模型提示结合的两个实际应用：将食谱个性化以适应用户偏好和将食谱转化为代码以实现自动化烹饪过程。实验结果验证了该方法的有效性，并强调其在食品计算领域的未来发展和广泛应用潜力。

Aug, 2023