Dec, 2023

FoodLMM:使用大型多模态模型的多功能食物助手

TL;DR提出了一种基于 Large Multi-modal Models 的多功能食品助手 FoodLMM,包括食品识别、成分识别、食谱生成、营养估计、食品分割和多轮对话等各种能力,通过引入一系列新颖的任务特定标记和头部来预测食品营养价值和多个分割掩码,采用两阶段训练策略,使其能够进行专业对话和基于对食品领域的复杂推理来生成分割掩码,并在若干食品数据集上取得了最先进的结果。