FoodMLLM-JP：利用多模态大型语言模型进行日本食谱生成

Sep, 2024

FoodMLLM-JP：利用多模态大型语言模型进行日本食谱生成

FoodMLLM-JP: Leveraging Multimodal Large Language Models for Japanese Recipe Generation

Yuki Imajuku, Yoko Yamakata, Kiyoharu Aizawa

TL;DR本研究解决了日本食谱生成中对食物图像理解的不足。通过微调开放的多模态大型语言模型LLaVA-1.5和Phi-3 Vision，在日本食谱数据集上进行了评估，结果显示其在食材生成上的F1得分（0.531）优于当前最佳模型GPT-4o（0.481），展现了更高的准确性，具有重要的实际应用潜力。

Abstract

Research on Food Image Understanding using recipe data has been a long-standing focus due to the diversity and complexity of the data. Moreover, food is inextricably linked to people's lives, making it a vital research area for practical applications such as dietary management. Recent

发现论文，激发创造

Recipe1M+: 面向学习烹饪食谱和食物图像的跨模态嵌入数据集

本研究介绍了Recipe1M+，这是一个包含超过一百万个烹饪食谱和1300万个美食图像的大规模结构化语料库。通过使用数据，我们训练一个神经网络，学习食谱和图像的联合嵌入，从而在图像-食谱检索任务上取得了令人印象深刻的结果。此外，我们证明了通过添加高级分类目标的正则化可以提高检索性能，并使语义向量算术成为可能。我们假设这些嵌入将为进一步探索Recipe1M+数据集以及食品和烹饪提供基础。

Oct, 2018

多模态模块化人工智能厨师：基于图像的复杂食谱生成

本文介绍了一种基于多模态方法的轻量级和专门化的API，使对象检测和最新的文本生成器的串联生成秤可能的食谱。

Mar, 2023

Food-500 Cap：用于评估视觉语言模型的细粒度食物标题基准

我们综合研究了流行的视觉-语言模型（VLMs）在特定领域，即食品领域中的能力，并发现它们在特定领域的表现不如在一般领域中的表现好，同时揭示了VLMs在处理不同地理区域的食物方面存在严重偏见。

Aug, 2023

食物图像转菜谱生成

该研究提出了一种针对食品计算领域的新型多模态方法（FIRE），该方法基于输入的食品图像生成食品标题、配料和烹饪说明，并展示了与大型语言模型提示结合的两个实际应用：将食谱个性化以适应用户偏好和将食谱转化为代码以实现自动化烹饪过程。实验结果验证了该方法的有效性，并强调其在食品计算领域的未来发展和广泛应用潜力。

Aug, 2023

ChEF: 一个综合评估框架用于对多模态大型语言模型进行标准化评估

通过构建全面的评估框架（ChEF），对多模态大语言模型（MLLMs）的能力和限制进行标准化和全面的评估，以及提出新的评估方法和模型集成工具包，以促进MLLM社区的进一步分析和发展。

Nov, 2023

FoodLMM：使用大型多模态模型的多功能食物助手

提出了一种基于Large Multi-modal Models的多功能食品助手FoodLMM，包括食品识别、成分识别、食谱生成、营养估计、食品分割和多轮对话等各种能力，通过引入一系列新颖的任务特定标记和头部来预测食品营养价值和多个分割掩码，采用两阶段训练策略，使其能够进行专业对话和基于对食品领域的复杂推理来生成分割掩码，并在若干食品数据集上取得了最先进的结果。

Dec, 2023

FoodSky: 一种面向食品的大型语言模型，通过厨师和饮食学考试

通过感知和推理实现食物数据的深度理解，FoodSky在厨师和营养师考试中的准确度分别为67.2％和66.4％，将大幅超越通用类型的大型语言模型，并且可以提升烹饪创造力，推广更健康的饮食模式，并为解决食品领域的复杂现实问题设定了新的标准。

Jun, 2024

FoodieQA: 一个用于细粒度理解中国美食文化的多模态数据集

对中国各地区的食物文化进行分析，创建了FoodieQA数据集，包括图像和文字描述，并评估了视觉-语言模型和大型语言模型的表现，发现在多图像和单图像问答任务上，开源的视觉-语言模型仍然存在较大的差距，而理解食物文化及其文化含义仍然是一个具有挑战性且尚未深入探索的方向。

Jun, 2024

LLaVA-Chef：一种用于食品食谱的多模态生成模型

该研究解决了在线食谱分享中对有效生成食品食谱的需求，提出了一种新颖的模型LLaVA-Chef，该模型经过针对多样食谱提示的定制数据集训练，以提高食品领域的理解能力。研究发现，LLaVA-Chef生成的食谱在成分提及的准确性和细节方面显著优于现有方法，显示出其在食品生成任务中的潜在影响。

Aug, 2024

ChefFusion：集成食谱和食品图像生成的多模态基础模型

本研究解决了现有食品计算研究中缺乏多模态整合的问题，提出了一种新型的食品计算基础模型ChefFusion，能够同时处理食谱生成、食品图像生成等多项任务。该模型通过结合大语言模型和预训练图像编码解码模型，展现了显著的性能提升，尤其在食品图像生成和食谱生成领域具有广泛的应用价值。

Sep, 2024