SemEval2023任务1中的OPI: 面向视觉词义消歧的图像-文本嵌入和多模态信息检索
本文介绍了一项新任务:为动词进行视觉意义消歧,以此作为多模态任务如图像检索和图像描述的基础,并提出了基于Lesk算法的无监督算法来执行视觉意义消歧,说明了在有和无标注图像情况下,文本嵌入和多模态嵌入的性能。本文最终提供了VerSe数据集,并提供了下载链接。
Mar, 2016
本研究提出了一种基于预训练的词嵌入,利用完全无监督和无基于知识的方法诱导一个完整的词义库,并实现对158种语言中的单词进行上下文消歧,对于资源匮乏的语言特别有用。
Mar, 2020
提出了一种名为Most Suitable Sense Annotation (MSSA)的新方法,它通过一种无监督技术来标注每个单词的特定含义,并考虑其上下文的语义效应,从而减轻了自然语言理解中多义性和同音异义词的问题,实现了语义表示方面的三个主要贡献,使用六个不同的基准模型进行word similarity测试,结果表明该方法能够产生最先进的结果,胜过了几个更复杂的先进系统。
Jan, 2021
本篇论文提出了一种探测任务的方法,通过训练分类器来比较各种最新的文本-图像语义嵌入,揭示了语义嵌入中存在的问题并提出了问题解决方案。实验结果表明,视觉-语义嵌入的识别准确率比单媒体嵌入提高了12%以上。
Feb, 2021
本文关注零样本图像检索,使用句子作为查询条件,概述了该领域的技术趋势,包括图像与文本匹配的历史、常用的数据集和方法的评估结果, 并介绍了 Github 上的实现,旨在鼓励研究者进一步发掘语言与图像之间的联系。
May, 2021
本文讲述了 Alberta 大学团队在 SemEval-2023 视觉词义消歧(V-WSD)任务中的系统,使用 BabelNet 中检索到的注释、文本和图像编码器的组合的新算法。此外,我们将语言特定的编码器与应用于翻译文本的英语编码器进行比较。由于任务数据集中提供的上下文非常短,因此我们还使用语言模型生成的描述来增强这些上下文,从而显著提高了准确性。我们还描述并评估了使用图像生成和文本条件图像分割的其他 V-WSD 方法。总体而言,我们的官方提交结果将我们排名第 18,一些我们的非官方结果甚至比官方结果更好。
Jun, 2023
利用大型语言模型(Knowledge Bases)中存储的知识,通过适当的提示实现以零-shot方式检索VL transformers的性能改进,并将Visual Word Sense Disambiguation转化为纯粹的文本问答问题。
Oct, 2023
通过多种方法,包括多模态检索、大型语言模型、问题回答以及学习排序模型等,本文深入研究了视觉词义消歧任务,以揭示其有趣的特性,为未来研究方向提供了有价值的启示。
Oct, 2023
我们提出了一个多模态检索框架,充分利用了预训练的视觉-语言模型、开放知识库和数据集,通过处理上下文与目标词的含义进行匹配、使用提示模板整合匹配的描述和其他文本信息进行图像检索、融合不同模态的上下文信息并用于预测,为词义消歧和多模态学习领域带来了深刻的见解。
Nov, 2023
本文研究解决了视觉词义消歧(VWSD)中的多模态数据整合问题,提出了ARPA架构,将大型语言模型和变换器的特性融合,通过自定义的图神经网络层学习数据中的复杂关系。实验证明,ARPA在复杂消歧场景中表现出色,有望重塑语言和视觉数据互动的标准。
Aug, 2024