烹饪情境下的跨模态检索：学习语义文本 - 图像嵌入

SIGIRApr, 2018

烹饪情境下的跨模态检索：学习语义文本 - 图像嵌入

Cross-Modal Retrieval in the Cooking Context: Learning Semantic Text-Image Embeddings

Micael Carvalho, Rémi Cadène, David Picard, Laure Soulier, Nicolas Thome...

TL;DR本文提出了一种跨模态检索模型，采用视觉和文本数据对餐品及其食谱进行建模，并在包含近 100 万图像配方对的 Recipe1M 数据集上进行了验证，取得了比先前最先进模型更好的效果，并针对计算烹饪应用案例展示了质量结果。

Abstract

Designing powerful tools that support cooking activities has rapidly gained popularity due to the massive amounts of available data, as well as recent advances in machine learning that are capable of analyzing th

cooking cross-modal retrieval machine learning recipe1m dataset computational cooking

发现论文，激发创造

CHEF: 跨模态层次嵌入用于食品领域检索

本文提出了一种新颖的跨模态学习框架来自动发现食谱中文本和图像的实体及其相应的重要性，并能在没有明确监督的情况下识别出食谱描述中的主要成分和烹饪动作，为跨模态检索和食谱适应任务提供更有意义的特征表示。

Feb, 2021

跨模态食品检索：使用语义一致性和注意机制学习食品图片和配方的联合嵌入

本文提出了一种名为 Semantic-Consistent and Attention-based Networks (SCAN) 的方法，可解决在跨模式食品数据中存在的内在方差大和间方差小的问题以及获取区分性食谱表示的难点，其目的是学习图像和食谱的嵌入，使相应的图像 - 食谱嵌入彼此靠近，然后在大规模的 Recipe1M 数据集上评估了该方法的性能，并表明它在食品图像和烹饪食谱的交叉检索方面优于几种最先进的策略。

Mar, 2020

利用潜变量模型拉近烹饪食谱和菜肴图像之间的跨模态差距

本文介绍一种通过 “模态一致嵌入网络” 实现食品图片与烹饪配方的跨模态检索的方法，旨在提升健康应用领域中的食品检索技术。经过广泛的实验结果证明，该方法在 Recipe1M 数据集上表现优秀并且需要较少的计算成本。

Apr, 2020

烹饪情境下的图像和菜谱检索

本文基于机器学习技术，提出了一种用于大规模检索任务的图片 - 食谱对齐方法，并在 Recipe1M 数据集上进行了实验，取得了最先进的成果。

May, 2018

层次变换器与自监督学习优化跨模态菜谱检索

本研究针对跨模态食谱检索任务，提出一个基于端到端模型的层级食谱 Transformer，使用自我监督损失函数在图像和食谱样本上训练，取得了 Recipe1M 数据集上的最佳性能表现。

Mar, 2021

重新审视跨模态检索

本文提出了一种交叉模态检索系统，利用图像和文本编码，实现了同时检索模态的功能，避免了需要为每个模态使用不同网络的缺点。在所使用的知识中，本文是第一篇采用单一网络和融合的图像 - 文本嵌入进行跨模态检索的工作。在 MS-COCO 和 Flickr30K 两个著名的多模态数据集上对该方法进行了评估。

Jul, 2018

使用对抗网络学习跨模态嵌入，用于烹饪食谱和食物图像

研究了食品领域跨模态检索的开放性研究任务，提出了一种新的框架 Adversarial Cross-Modal Embedding（ACME）来解决这个问题，通过三元组损失和有效的采样策略学习公共嵌入特征空间，并实现模态对齐、跨模态翻译一致性等多种模型，取得了基准 Recipe1M 数据集的最先进性能。

May, 2019

Recipe1M+: 面向学习烹饪食谱和食物图像的跨模态嵌入数据集

本研究介绍了 Recipe1M+，这是一个包含超过一百万个烹饪食谱和 1300 万个美食图像的大规模结构化语料库。通过使用数据，我们训练一个神经网络，学习食谱和图像的联合嵌入，从而在图像 - 食谱检索任务上取得了令人印象深刻的结果。此外，我们证明了通过添加高级分类目标的正则化可以提高检索性能，并使语义向量算术成为可能。我们假设这些嵌入将为进一步探索 Recipe1M + 数据集以及食品和烹饪提供基础。

Oct, 2018

通过生成模型改进文本 - 视觉交叉检索：观察、想象和匹配

本文提出一种新的跨模态检索方法，利用生成式模型学习多模态数据的全局和本地特征，从而在 MSCOCO 数据集上实现了最先进的跨模态检索结果。

Nov, 2017

跨模式食谱检索的分治策略：从最近邻基线到最佳表现

我们提出了一种新颖的非参数方法，用于跨模式菜谱检索，结合图像和文本嵌入，通过将我们的方法与用自监督分类目标独立训练的标准方法相结合，我们创建了一个基准模型，在挑战性的图像到菜谱任务上优于大多数现有方法。我们还使用我们的方法比较使用不同现代方法训练的图像和文本编码器，从而解决跨模式菜谱检索的问题。通过三元组损失增强基准模型，同时仅使用预计算特征并且比现有方法更简单，大幅提高了在 Recipe1M 数据集上的最新水平，并且我们的方法易于推广到其他具有挑战性的领域，在政治和 GoodNews 跨模态检索任务上实现了最先进的性能。

Nov, 2019