FoodMem: 高精确度近实时食品视频分割
通过构建大规模的食品图像本体,本文提出了一个将空间通道注意力与构建格外区域注意机制相结合的堆叠全局-局部注意网络,用于食品识别。在 ISIA Food-500 和其他两个流行数据集上的广泛实验表明了该方法的有效性。
Aug, 2020
通过深度学习方法,建立了一个集数据整合、标记、模型识别及移动APP实现于一体的餐饮管理框架,以繁复印度盛菜为例研究证明,使用YOLOv8x和ResNet152模型在平均精度上更优,通过模型可以有效的记录和监管人们的饮食,为营养干预和改善生活方式等领域提供可能性。
May, 2023
FoodSAM是一种创新的框架,整合了粗糙的语义掩膜和SAM生成的掩膜,以提高语义分割质量,并将零样本能力扩展到实例分割和全景分割,是首个在食品图像上实现实例、全景和可提示分割的工作。
Aug, 2023
提出了一种无需像素级注释进行食物图像分类和语义分割模型训练的弱监督方法,该方法基于多实例学习和基于注意力机制的方法,实现了食物类别的分类和语义分割,并在FoodSeg103数据集上进行了实验验证和探索了注意力机制的性能特性。
Aug, 2023
提出了两个个人化食物图像分类基准数据集,Food101-Personal和VFNPersonal,以及利用自我监督学习和时间图像特征信息的个人化食物图像分类新框架,并在基准数据集上展示了相比现有方法更好的性能。
Sep, 2023
通过利用开源食品数据集和两种数据清洗方法开发的FoodFusion模型,能够以更真实和多样化的方式生成食品图像,填补了现有图像生成模型的不足。
Dec, 2023
提出了一种基于Large Multi-modal Models的多功能食品助手FoodLMM,包括食品识别、成分识别、食谱生成、营养估计、食品分割和多轮对话等各种能力,通过引入一系列新颖的任务特定标记和头部来预测食品营养价值和多个分割掩码,采用两阶段训练策略,使其能够进行专业对话和基于对食品领域的复杂推理来生成分割掩码,并在若干食品数据集上取得了最先进的结果。
Dec, 2023
在食品计算领域,从图像中分割出食材面临着巨大挑战,因为相同食材的内部类别差异较大,新食材的出现以及大型食品分割数据集所伴随的高昂标注成本。OVFoodSeg是一种采用开放词汇设置并将文本嵌入与视觉上下文相结合的框架,通过集成视觉-语言模型(VLMs),我们的方法通过两个创新模块(FoodLearner和图像感知文本编码器)使文本嵌入丰富化与图像特定信息。通过解决先前模型的不足,OVFoodSeg在FoodSeg103数据集上在平均交并比(mIoU)上取得了显著提高,提升了4.9%,为食品图像分割设定了一个新的里程碑。
Apr, 2024
当代社会中,运用人工智能进行自动食品识别在营养追踪、减少食物浪费以及提升食品生产和消费效率等方面具有巨大的潜力。该研究使用预训练的MobileNetV2模型,结合多种技术手段,提高了食品识别的性能和鲁棒性,从而可应用于实际应用中。
May, 2024
本研究针对现有3D数据集中缺乏营养价值的信息这一问题,提出了MetaFood3D数据集,涵盖637个精细标注的3D食品对象,包含108个类别及详细的营养信息。该数据集的创新之处在于其丰富的多模态信息,能够显著提升食品对象分析算法的性能,潜在地推动计算机视觉领域的研究进展。
Sep, 2024