Nov, 2023

香港科技大学在 SemEval-2023 任务 1 中的视觉词义消歧:通过上下文增强和视觉辅助

TL;DR我们提出了一个多模态检索框架,充分利用了预训练的视觉 - 语言模型、开放知识库和数据集,通过处理上下文与目标词的含义进行匹配、使用提示模板整合匹配的描述和其他文本信息进行图像检索、融合不同模态的上下文信息并用于预测,为词义消歧和多模态学习领域带来了深刻的见解。