May, 2023

基于实体驱动的多模态 Web 内容图像搜索

TL;DR介绍了一种名为 EDIS 的跨模态图像搜索数据集,包括一百万个来自实际搜索引擎结果和策划数据集的 Web 图像,并与文本描述配对,旨在鼓励开发可以同时处理跨模态信息融合和匹配的提取模型,实验证明纯文本和视觉特征的融合对性能有很大影响。