May, 2023

视觉 - 语言模型推动食品成分编译

TL;DR本文提出了一种基于视觉语言神经网络模型的 UMDFood-VL 模型,并利用最全面的 UMDFood-90k 多模态食品数据库,相较于传统的卷积神经网络(CNNs)和循环神经网络(RNNs),在各种营养价值估计上显著提高,尤其是在食品成分估计上取得了 95%的宏平均 AUCROC,具有一定的实际应用价值。