多模态模块化人工智能厨师：基于图像的复杂食谱生成

Mar, 2023

多模态模块化人工智能厨师：基于图像的复杂食谱生成

The Multimodal And Modular Ai Chef: Complex Recipe Generation From Imagery

David Noever, Samantha Elizabeth Miller Noever

TL;DR本文介绍了一种基于多模态方法的轻量级和专门化的 API，使对象检测和最新的文本生成器的串联生成秤可能的食谱。

Abstract

The AI community has embraced multi-sensory or multi-modal approaches to advance this generation of AI models to resemble expected intelligent understanding. Combining language and imagery represents a familiar method for specific tasks like →

multi-modal approaches image captioning object detection apis recipe generation

发现论文，激发创造

大型语言模型作为副主厨：使用 GPT-3 修改食谱

我们的研究利用大语言模型将菜谱文本转化为易于理解的形式，通过改进菜谱的步骤和指令并使用 Amazon Mechanical Turk 任务收集人类意见，证明了大语言模型作为数字厨师的潜在应用。

Jun, 2023

AiGen-FoodReview：一个多模态的机器生成餐厅评论和社交媒体图片的数据集

通过使用大规模语言模型和图像模型构建 AiGen-FoodReview 数据集，本论文提供了检测和识别机器生成的虚假评论的方法，该方法能在单模态和多模态情况下取得接近真实数据性能的可扩展并可解释的检测结果。

Jan, 2024

食物图像转菜谱生成

该研究提出了一种针对食品计算领域的新型多模态方法（FIRE），该方法基于输入的食品图像生成食品标题、配料和烹饪说明，并展示了与大型语言模型提示结合的两个实际应用：将食谱个性化以适应用户偏好和将食谱转化为代码以实现自动化烹饪过程。实验结果验证了该方法的有效性，并强调其在食品计算领域的未来发展和广泛应用潜力。

Aug, 2023

CHEF: 跨模态层次嵌入用于食品领域检索

本文提出了一种新颖的跨模态学习框架来自动发现食谱中文本和图像的实体及其相应的重要性，并能在没有明确监督的情况下识别出食谱描述中的主要成分和烹饪动作，为跨模态检索和食谱适应任务提供更有意义的特征表示。

Feb, 2021

图像任意：朝着始终合理推理和无需训练的多模态图像生成

ImgAny 是一种新颖的端到端多模态生成模型，可以模仿人类推理并生成高质量图像。该方法能够有效且灵活地接收来自语言、音频和视觉等七种不同的模态组合，并通过实体融合分支和属性融合分支整合多个输入模态，并利用预训练的稳定扩散模型生成图像。大量实验证明了其在视觉内容创作方面的卓越能力。

Jan, 2024

Cook-Gen：菜谱烹饪行为的鲁棒生成建模

本研究探索了使用生成 AI 方法扩展当前食品计算模型的可能性，主要涉及营养和配料分析，以及包括烹饪行为（例如加盐，煎肉，煮蔬菜等），并提出了一种新的基于聚合的生成 AI 方法 Cook-Gen。

Jun, 2023

多模态体验启发的人工智能创作

基于多模态信息的序列到序列架构和课程负采样策略被设计，以解决基于人类经验生成文本的新问题，并在新的多模态体验数据集上进行了广泛的实验，取得了较大的改进。

Sep, 2022

深度图像至食谱翻译

深度图像到菜谱的翻译，是计算机视觉和自然语言生成的交叉领域，旨在弥合珍贵食物记忆与烹饪艺术之间的鸿沟。

Jul, 2024

多模式烹饪工作流程构建用于食谱

利用图形化方法描述菜谱的工作流程是一个需要常识推理的复杂任务。本文提出了一个基于神经网络技术的编码器 - 解码器模型，通过使用视觉和文本信息来构建食品制作工作流程。我们还构建了一个包含 9,850 道菜谱的大型数据集，采用该方法比手工特征提取能够显著提高 20% 以上的性能。

Aug, 2020

烹饪情境下的跨模态检索：学习语义文本 - 图像嵌入

本文提出了一种跨模态检索模型，采用视觉和文本数据对餐品及其食谱进行建模，并在包含近 100 万图像配方对的 Recipe1M 数据集上进行了验证，取得了比先前最先进模型更好的效果，并针对计算烹饪应用案例展示了质量结果。

Apr, 2018