Sep, 2024

FoodMLLM-JP:利用多模态大型语言模型进行日本食谱生成

TL;DR本研究解决了日本食谱生成中对食物图像理解的不足。通过微调开放的多模态大型语言模型LLaVA-1.5和Phi-3 Vision,在日本食谱数据集上进行了评估,结果显示其在食材生成上的F1得分(0.531)优于当前最佳模型GPT-4o(0.481),展现了更高的准确性,具有重要的实际应用潜力。