ARPA：一种新颖的混合模型，推动视觉词义消歧的进展，结合大型语言模型和变换器

Aug, 2024

ARPA：一种新颖的混合模型，推动视觉词义消歧的进展，结合大型语言模型和变换器

ARPA: A Novel Hybrid Model for Advancing Visual Word Disambiguation Using Large Language Models and Transformers

Aristi Papastavrou, Maria Lymperaiou, Giorgos Stamou

TL;DR本文研究解决了视觉词义消歧（VWSD）中的多模态数据整合问题，提出了ARPA架构，将大型语言模型和变换器的特性融合，通过自定义的图神经网络层学习数据中的复杂关系。实验证明，ARPA在复杂消歧场景中表现出色，有望重塑语言和视觉数据互动的标准。

Abstract

In the rapidly evolving fields of natural language processing and computer vision, Visual Word Sense Disambiguation (VWSD) stands as a critical, yet challenging task. The quest for models that can seamlessly integrate and interpret multimodal data is more pressing than ever. Imagine a

发现论文，激发创造

基于多模态嵌入的动词无监督视觉语义消歧

本文介绍了一项新任务：为动词进行视觉意义消歧，以此作为多模态任务如图像检索和图像描述的基础，并提出了基于Lesk算法的无监督算法来执行视觉意义消歧，说明了在有和无标注图像情况下，文本嵌入和多模态嵌入的性能。本文最终提供了VerSe数据集，并提供了下载链接。

Mar, 2016

基于视觉语境的多模态词表示学习

本研究提出了一种同时利用文本和视觉上下文以学习多模态词嵌入的端到端方法，通过将视觉上下文元素整合到多模态skip-gram模型中，探索了何种因素可以作为视觉上下文，并进行了实验和分析。

Nov, 2017

词义消歧语言模型的分析与评价

本文对BERT模型在词汇歧义方面的能力及其潜在局限性进行了深入的定量和定性分析。作者发现，BERT可以准确地捕捉高级别的意义区别，但对于具有限定条件的名词消歧问题，处理仍存在很多挑战。作者还在两种主要的基于语言模型的WSD策略（即微调和特征提取）之间进行了深入比较，并发现后一种方法更为稳健。

Aug, 2020

语言与视觉：基于场景的词语和句子嵌入研究

本研究提出了一种简单且非常有效的预训练词嵌入视觉对齐方法，使得即使对于抽象词，我们也能生成受视觉基础支撑的嵌入，并且在一系列的单词相似性基准测试中证明了视觉基础支撑不仅有益于具体词，还有益于抽象词。

Jun, 2022

SemEval2023任务1中的OPI: 面向视觉词义消歧的图像-文本嵌入和多模态信息检索

本研究提出采用多模态模型、排序学习以及基于知识的方法来进行词义消歧，并在 SemEval 2023 视觉词义消歧共享任务中荣获波斯语赛道的冠军以及多语言赛道的第三名。

Apr, 2023

UAlberta参加SemEval-2023任务1：多语言视觉词义消歧的上下文增强和翻译

本文讲述了 Alberta 大学团队在 SemEval-2023 视觉词义消歧（V-WSD）任务中的系统，使用 BabelNet 中检索到的注释、文本和图像编码器的组合的新算法。此外，我们将语言特定的编码器与应用于翻译文本的英语编码器进行比较。由于任务数据集中提供的上下文非常短，因此我们还使用语言模型生成的描述来增强这些上下文，从而显著提高了准确性。我们还描述并评估了使用图像生成和文本条件图像分割的其他 V-WSD 方法。总体而言，我们的官方提交结果将我们排名第 18，一些我们的非官方结果甚至比官方结果更好。

Jun, 2023

语言模型作为视觉词义消歧的知识库

利用大型语言模型(Knowledge Bases)中存储的知识，通过适当的提示实现以零-shot方式检索VL transformers的性能改进，并将Visual Word Sense Disambiguation转化为纯粹的文本问答问题。

Oct, 2023

大型语言模型和多模态检索在视觉词义消歧中的应用

通过多种方法，包括多模态检索、大型语言模型、问题回答以及学习排序模型等，本文深入研究了视觉词义消歧任务，以揭示其有趣的特性，为未来研究方向提供了有价值的启示。

Oct, 2023

香港科技大学在SemEval-2023任务1中的视觉词义消歧：通过上下文增强和视觉辅助

我们提出了一个多模态检索框架，充分利用了预训练的视觉-语言模型、开放知识库和数据集，通过处理上下文与目标词的含义进行匹配、使用提示模板整合匹配的描述和其他文本信息进行图像检索、融合不同模态的上下文信息并用于预测，为词义消歧和多模态学习领域带来了深刻的见解。

Nov, 2023

探索视觉-语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024