烹饪情境下的图像和菜谱检索
本文提出了一种跨模态检索模型,采用视觉和文本数据对餐品及其食谱进行建模,并在包含近 100 万图像配方对的 Recipe1M 数据集上进行了验证,取得了比先前最先进模型更好的效果,并针对计算烹饪应用案例展示了质量结果。
Apr, 2018
本文提出了一种新颖的跨模态学习框架来自动发现食谱中文本和图像的实体及其相应的重要性,并能在没有明确监督的情况下识别出食谱描述中的主要成分和烹饪动作,为跨模态检索和食谱适应任务提供更有意义的特征表示。
Feb, 2021
本文提出了一种名为 Semantic-Consistent and Attention-based Networks (SCAN) 的方法,可解决在跨模式食品数据中存在的内在方差大和间方差小的问题以及获取区分性食谱表示的难点,其目的是学习图像和食谱的嵌入,使相应的图像 - 食谱嵌入彼此靠近,然后在大规模的 Recipe1M 数据集上评估了该方法的性能,并表明它在食品图像和烹饪食谱的交叉检索方面优于几种最先进的策略。
Mar, 2020
该研究提出了一种针对食品计算领域的新型多模态方法(FIRE),该方法基于输入的食品图像生成食品标题、配料和烹饪说明,并展示了与大型语言模型提示结合的两个实际应用:将食谱个性化以适应用户偏好和将食谱转化为代码以实现自动化烹饪过程。实验结果验证了该方法的有效性,并强调其在食品计算领域的未来发展和广泛应用潜力。
Aug, 2023
本研究介绍了 Recipe1M+,这是一个包含超过一百万个烹饪食谱和 1300 万个美食图像的大规模结构化语料库。通过使用数据,我们训练一个神经网络,学习食谱和图像的联合嵌入,从而在图像 - 食谱检索任务上取得了令人印象深刻的结果。此外,我们证明了通过添加高级分类目标的正则化可以提高检索性能,并使语义向量算术成为可能。我们假设这些嵌入将为进一步探索 Recipe1M + 数据集以及食品和烹饪提供基础。
Oct, 2018
通过使用无监督算法和图算法对文本和视频食谱的多模态数据进行对齐,研究了如何自动提取感性解释以说明现实世界中的复杂过程,构建了包含 4,262 道菜品的 Microsoft Research Multimodal Aligned Recipe Corpus 数据集。
May, 2020
本研究提出了一种新的方案,使用注意力机制、跨模态表示和指令和候选答案之间的潜在对齐空间来解决包含图像和指令的任务的语境推理问题,结果表明其优于基线的 19%。
Jan, 2021
本研究针对跨模态食谱检索任务,提出一个基于端到端模型的层级食谱 Transformer,使用自我监督损失函数在图像和食谱样本上训练,取得了 Recipe1M 数据集上的最佳性能表现。
Mar, 2021