使用视觉和文本数据的联合表示进行食品分类

Aug, 2023

使用视觉和文本数据的联合表示进行食品分类

Food Classification using Joint Representation of Visual and Textual Data

Prateek Mittal, Puneet Goyal, Joohi Chauhan

TL;DR提出一种使用 EfficientNet 的改进版本和 Mish 激活函数进行图像分类的多模态分类框架，并使用传统的基于 BERT 的文本分类网络。在大型开源数据集 UPMC Food-101 上评估了提出的网络和其他最先进的方法，实验结果表明，与排名第二的方法相比，提出的网络在图像和文本分类上的准确率分别提高了 11.57% 和 6.34%。同时，通过使用机器学习和深度学习模型进行文本分类的准确率、精确度和召回率性能比较分析，证明了所提出方法的效率和鲁棒性。

Abstract

food classification is an important task in health care. In this work, we propose a multimodal classification framework that uses the modified version of →

food classification multimodal classification efficientnet mish activation function upmc food-101

发现论文，激发创造

FoodNet: 使用深度神经网络集成识别食物

本文提出了一种自动食物分类系统的方法，该系统能够从食物图像中识别出食物的内容。采用多层卷积神经网络架构，并在训练中用到了预处理的图像和滤波器输出进行融合以提高准确率。该方法在 ETH Food-101 数据库和新贡献的印度食品图像数据库上表现出比其他基准深度学习 CNN 框架更加有效的效果。

Sep, 2017

CHEF: 跨模态层次嵌入用于食品领域检索

本文提出了一种新颖的跨模态学习框架来自动发现食谱中文本和图像的实体及其相应的重要性，并能在没有明确监督的情况下识别出食谱描述中的主要成分和烹饪动作，为跨模态检索和食谱适应任务提供更有意义的特征表示。

Feb, 2021

多标签学习在食品成分识别中的应用

研究了自动饮食评估系统中视觉识别食物的核心功能，使用深度多标签学习方法评估了几种最先进的神经网络，以在图像中检测任意数量的成分，并针对编码使用了多个著名的神经网络模型。在使用挑战性数据集 Nutrition5K 上，取得了有希望的初步结果，并为未来的探索奠定了坚实的基础。

Oct, 2022

一张图 worth 一千字吗？一种深度多模融合 e-commerce 商品分类模型

该论文采用决策级融合方法将文本和图像输入用于产品分类预测，通过训练深度神经网络和学习网络来选择输入类型，并成功地提高了大规模产品分类数据集上的准确性。

Nov, 2016

基于视觉感知层次的食品识别

本研究提出了一种新的基于 Convolutional Neural Networks (CNNs) 的两步骤食物识别系统，其中包括基于 Faster R-CNN 方法的食物定位和用于执行基于视图关联的分类任务的多任务 CNN 模型，该模型能够自动生成表达食物类别语义视觉关系的层次结构。实验结果表明，该系统在 4 个公开数据集和新的 VFN 数据集上均可以显著提高分类和识别性能。

Dec, 2020

基于图像的多任务饮食评估：食物识别和份量估算

本研究提出了一种端到端的多任务学习框架，可以同时实现食品分类和食品份量估计，通过使用 L2 范数的软参数共享和特征适应方法，提高了图像饮食评估的性能和预测准确率。

Apr, 2020

利用深度神经网络从食物图像中进行多任务营养预测的研究

该论文通过利用各种神经网络结构来预测餐食图像的营养含量，提高了膳食摄入估计的效力，并展示了其在改善膳食摄入估计准确性方面的潜力。

May, 2024

基于文本和图像的多模态深度网络文档分类

本文介绍了一种多模态神经网络，结合了 OCR 提取的文本和图像信息，来对文献图像进行分类。该方法在 Tobacco3482 和 RVL-CDIP 数据集上的准确率提高了 3%。

Jul, 2019

使用 Transformer 和卷积进行食品图像分割的知识转移

本文研究了食物图像分割的困难，提供了一个鲁棒的基准数据集 FoodSeg103，采用卷积神经网络和双向编码器表示图像转换器（BEiT）进行对比，并证明 BEiT 在食物图像分割中的表现优于其他模型，表明转移学习可以提高图像分割性能。

Jun, 2023

烹饪情境下的跨模态检索：学习语义文本 - 图像嵌入

本文提出了一种跨模态检索模型，采用视觉和文本数据对餐品及其食谱进行建模，并在包含近 100 万图像配方对的 Recipe1M 数据集上进行了验证，取得了比先前最先进模型更好的效果，并针对计算烹饪应用案例展示了质量结果。

Apr, 2018