SemEval2023任务1中的OPI: 面向视觉词义消歧的图像-文本嵌入和多模态信息检索

Apr, 2023

SemEval2023任务1中的OPI: 面向视觉词义消歧的图像-文本嵌入和多模态信息检索

OPI at SemEval 2023 Task 1: Image-Text Embeddings and Multimodal Information Retrieval for Visual Word Sense Disambiguation

HTML

PDF

Sławomir Dadas

TL;DR本研究提出采用多模态模型、排序学习以及基于知识的方法来进行词义消歧，并在 SemEval 2023 视觉词义消歧共享任务中荣获波斯语赛道的冠军以及多语言赛道的第三名。

Abstract

The goal of visual word sense disambiguation is to find the image that best matches the provided description of the word's meaning. It is a challenging problem, requiring approaches that combine language and image understanding. In this paper, we present our submission to SemEval 2023

发现论文，激发创造

基于多模态嵌入的动词无监督视觉语义消歧

本文介绍了一项新任务：为动词进行视觉意义消歧，以此作为多模态任务如图像检索和图像描述的基础，并提出了基于Lesk算法的无监督算法来执行视觉意义消歧，说明了在有和无标注图像情况下，文本嵌入和多模态嵌入的性能。本文最终提供了VerSe数据集，并提供了下载链接。

Mar, 2016

使用仅词嵌入的方法对158种语言进行词义消歧

本研究提出了一种基于预训练的词嵌入，利用完全无监督和无基于知识的方法诱导一个完整的词义库，并实现对158种语言中的单词进行上下文消歧，对于资源匮乏的语言特别有用。

Mar, 2020

通过词义消歧过程实现多义词嵌入

提出了一种名为Most Suitable Sense Annotation (MSSA)的新方法，它通过一种无监督技术来标注每个单词的特定含义，并考虑其上下文的语义效应，从而减轻了自然语言理解中多义性和同音异义词的问题，实现了语义表示方面的三个主要贡献，使用六个不同的基准模型进行word similarity测试，结果表明该方法能够产生最先进的结果，胜过了几个更复杂的先进系统。

Jan, 2021

探究多模态嵌入在语言属性中的应用：视觉-语义案例

本篇论文提出了一种探测任务的方法，通过训练分类器来比较各种最新的文本-图像语义嵌入，揭示了语义嵌入中存在的问题并提出了问题解决方案。实验结果表明，视觉-语义嵌入的识别准确率比单媒体嵌入提高了12%以上。

Feb, 2021

零样本图像检索的视觉-语义嵌入方法综述

本文关注零样本图像检索，使用句子作为查询条件，概述了该领域的技术趋势，包括图像与文本匹配的历史、常用的数据集和方法的评估结果，并介绍了 Github 上的实现，旨在鼓励研究者进一步发掘语言与图像之间的联系。

May, 2021

UAlberta参加SemEval-2023任务1：多语言视觉词义消歧的上下文增强和翻译

本文讲述了 Alberta 大学团队在 SemEval-2023 视觉词义消歧（V-WSD）任务中的系统，使用 BabelNet 中检索到的注释、文本和图像编码器的组合的新算法。此外，我们将语言特定的编码器与应用于翻译文本的英语编码器进行比较。由于任务数据集中提供的上下文非常短，因此我们还使用语言模型生成的描述来增强这些上下文，从而显著提高了准确性。我们还描述并评估了使用图像生成和文本条件图像分割的其他 V-WSD 方法。总体而言，我们的官方提交结果将我们排名第 18，一些我们的非官方结果甚至比官方结果更好。

Jun, 2023

语言模型作为视觉词义消歧的知识库

利用大型语言模型(Knowledge Bases)中存储的知识，通过适当的提示实现以零-shot方式检索VL transformers的性能改进，并将Visual Word Sense Disambiguation转化为纯粹的文本问答问题。

Oct, 2023

大型语言模型和多模态检索在视觉词义消歧中的应用

通过多种方法，包括多模态检索、大型语言模型、问题回答以及学习排序模型等，本文深入研究了视觉词义消歧任务，以揭示其有趣的特性，为未来研究方向提供了有价值的启示。

Oct, 2023

香港科技大学在SemEval-2023任务1中的视觉词义消歧：通过上下文增强和视觉辅助

我们提出了一个多模态检索框架，充分利用了预训练的视觉-语言模型、开放知识库和数据集，通过处理上下文与目标词的含义进行匹配、使用提示模板整合匹配的描述和其他文本信息进行图像检索、融合不同模态的上下文信息并用于预测，为词义消歧和多模态学习领域带来了深刻的见解。

Nov, 2023

ARPA：一种新颖的混合模型，推动视觉词义消歧的进展，结合大型语言模型和变换器

本文研究解决了视觉词义消歧（VWSD）中的多模态数据整合问题，提出了ARPA架构，将大型语言模型和变换器的特性融合，通过自定义的图神经网络层学习数据中的复杂关系。实验证明，ARPA在复杂消歧场景中表现出色，有望重塑语言和视觉数据互动的标准。

Aug, 2024