Aug, 2023

使用视觉和文本数据的联合表示进行食品分类

TL;DR提出一种使用 EfficientNet 的改进版本和 Mish 激活函数进行图像分类的多模态分类框架,并使用传统的基于 BERT 的文本分类网络。在大型开源数据集 UPMC Food-101 上评估了提出的网络和其他最先进的方法,实验结果表明,与排名第二的方法相比,提出的网络在图像和文本分类上的准确率分别提高了 11.57% 和 6.34%。同时,通过使用机器学习和深度学习模型进行文本分类的准确率、精确度和召回率性能比较分析,证明了所提出方法的效率和鲁棒性。