香港科技大学在 SemEval-2023 任务 1 中的视觉词义消歧：通过上下文增强和视觉辅助

Nov, 2023

香港科技大学在 SemEval-2023 任务 1 中的视觉词义消歧：通过上下文增强和视觉辅助

HKUST at SemEval-2023 Task 1: Visual Word Sense Disambiguation with Context Augmentation and Visual Assistance

Zhuohao Yin, Xin Huang

TL;DR我们提出了一个多模态检索框架，充分利用了预训练的视觉 - 语言模型、开放知识库和数据集，通过处理上下文与目标词的含义进行匹配、使用提示模板整合匹配的描述和其他文本信息进行图像检索、融合不同模态的上下文信息并用于预测，为词义消歧和多模态学习领域带来了深刻的见解。

Abstract

visual word sense disambiguation (VWSD) is a multi-modal task that aims to select, among a batch of candidate images, the one that best entails the target word's meaning within a limited context. In this paper, w

visual word sense disambiguation multi-modal retrieval framework pretrained vision-language models open knowledge bases word sense disambiguation

发现论文，激发创造

视觉遇见定义：融合词汇信息的无监督视觉词义消岐

本文介绍了一种使用基于词义的外部词汇知识库的无监督视觉词义消歧方法，该方法提出了一种利用贝叶斯推断来合并词义信息的方法，以及一种与 GPT-3 一起使用的上下文感知定义生成方法，实验结果显示，我们的方法显著提高了 VWSD 性能，并且对于具有更好性能的现有定义生成方法的 OOD 样例实现的明显性能提升。

May, 2023

大型语言模型和多模态检索在视觉词义消歧中的应用

通过多种方法，包括多模态检索、大型语言模型、问题回答以及学习排序模型等，本文深入研究了视觉词义消歧任务，以揭示其有趣的特性，为未来研究方向提供了有价值的启示。

Oct, 2023

UAlberta 参加 SemEval-2023 任务 1：多语言视觉词义消歧的上下文增强和翻译

本文讲述了 Alberta 大学团队在 SemEval-2023 视觉词义消歧（V-WSD）任务中的系统，使用 BabelNet 中检索到的注释、文本和图像编码器的组合的新算法。此外，我们将语言特定的编码器与应用于翻译文本的英语编码器进行比较。由于任务数据集中提供的上下文非常短，因此我们还使用语言模型生成的描述来增强这些上下文，从而显著提高了准确性。我们还描述并评估了使用图像生成和文本条件图像分割的其他 V-WSD 方法。总体而言，我们的官方提交结果将我们排名第 18，一些我们的非官方结果甚至比官方结果更好。

Jun, 2023

语言模型作为视觉词义消歧的知识库

利用大型语言模型 (Knowledge Bases) 中存储的知识，通过适当的提示实现以零 - shot 方式检索 VL transformers 的性能改进，并将 Visual Word Sense Disambiguation 转化为纯粹的文本问答问题。

Oct, 2023

使用主题模型的基于知识的词义消歧

本研究使用主题模型的形式设计了一种词义消歧系统，使其在上下文单词数线性增长的情况下扩展，该方法在 5 个英语全单词 WSD 数据集上进行的评估表明，其性能优于这一领域的当前最先进无监督知识为基础的 WSD 系统。

Jan, 2018

SemEval2023 任务 1 中的 OPI: 面向视觉词义消歧的图像 - 文本嵌入和多模态信息检索

本研究提出采用多模态模型、排序学习以及基于知识的方法来进行词义消歧，并在 SemEval 2023 视觉词义消歧共享任务中荣获波斯语赛道的冠军以及多语言赛道的第三名。

Apr, 2023

统一语义表示的多语言词义消歧

本文提出了一种基于多语言词典建立知识和监督为基础的多语言词义消歧（MWSD）系统的方法，利用统一的语义表示，将多种语言的注释进行共同训练以解决 MWSD 的注释稀缺问题，并在 SemEval-13 和 SemEval-15 数据集上展示了该方法的有效性。

Oct, 2022

基于知识的词义消歧的语义专业化

本文提出了一种基于词汇知识的语境化嵌入模型用于词义消岐，将相关语义的词义和上下文靠近，将不相关的远离，用 Attract-Repel 目标函数和自训练目标函数对嵌入进行调整，实现了在知识为基础的词义消岐方面的最新前沿成果。

Apr, 2023

基于多模态嵌入的动词无监督视觉语义消歧

本文介绍了一项新任务：为动词进行视觉意义消歧，以此作为多模态任务如图像检索和图像描述的基础，并提出了基于 Lesk 算法的无监督算法来执行视觉意义消歧，说明了在有和无标注图像情况下，文本嵌入和多模态嵌入的性能。本文最终提供了 VerSe 数据集，并提供了下载链接。

Mar, 2016

将弱监督的词义消歧集成到神经机器翻译中

本研究探讨了利用词义消歧算法扩大上下文范围提高神经机器翻译的效果，通过引入三种自适应聚类算法进行了验证并在 SemEval 数据上进行了评估，随后在一个最先进的 NMT 系统中联合学习单词向量和最佳 WSD 算法定义的词义向量，最终证明这种方法可以优于几个基准模型。

Oct, 2018