Apr, 2022

跨模态食物检索的多模态正则化Transformer解码器

TL;DR本研究提出了一种名为T-Food的跨媒体图像-食谱检索框架,利用多模态正则化技术,从而在测试时使用单模态编码器进行高效检索,可以捕捉食谱实体之间的内部依赖关系,并提出了动态边缘的三元组损失变体。最后,本文还利用最新的视觉与语言预训练(VLP)模型,如CLIP,作为图像编码器,并在Recipe1M数据集上实现了比现有方法大幅提升的结果。