CVPRApr, 2024

大规模语言模型在多模态搜索中的应用

TL;DR多模态搜索系统结合图像和文本,通过增强匹配能力、推理能力和上下文感知的查询解析和重写,提供用户与其搜索意图自然有效的交互。在 Fashion200K 数据集上,我们引入了一种新颖的多模态搜索模型,并提出了结合大型语言模型的搜索界面,以实现与用户的对话式互动和上下文考虑的搜索体验的升级,为购物助手提供了类人交互和全面的搜索体验。