跨语言视觉动词义消歧

ACLApr, 2019

Cross-lingual Visual Verb Sense Disambiguation

Spandana Gella, Desmond Elliott, Frank Keller

TL;DR本文介绍了一项较为具有挑战性的任务，即跨语言动词语义消歧，并提出了包含 9504 张图像的 MultiSense 数据集，该数据集标注有英语、德语和西班牙语动词。我们证明跨语言动词语义消歧模型在视觉背景下比单模基线表现更好，并且我们的最佳消歧模型所预测的动词意义在多模转换任务中可用于对纯文本机器翻译系统的改进。

Abstract

Recent work has shown that visual context improves cross-lingual sense disambiguation for nouns. We extend this line of work to the more challenging task of →

cross-lingual verb sense disambiguation visual context multisense dataset machine translation

发现论文，激发创造

基于多模态嵌入的动词无监督视觉语义消歧

本文介绍了一项新任务：为动词进行视觉意义消歧，以此作为多模态任务如图像检索和图像描述的基础，并提出了基于 Lesk 算法的无监督算法来执行视觉意义消歧，说明了在有和无标注图像情况下，文本嵌入和多模态嵌入的性能。本文最终提供了 VerSe 数据集，并提供了下载链接。

Mar, 2016

探索图像 - 语言变换器的动词理解

本文研究多模态图像语言变换器的预训练表示质量，研究表明在需要谓语理解的情况下这些模型的表现不佳，通过图像 - 语句对数据集评估模型性能，分类词汇类型并找到特别具有挑战性的词汇类型。

Jun, 2021

你看懂我想说的话了吗？语言歧义的视觉解决

通过感知获得的复杂上下文信息与理解语言相辅相成。本文提出了一项新颖的基于场景的语言理解任务：在给定描绘该句子可能解释之一的视觉场景的情况下，将其消除歧义。为此，我们介绍了一个包含多义句子的新的多模态语料库，表示广泛的句法、语义和语篇歧义，并与可视化不同解释的视频相耦合。我们通过扩展决定句子是否被视频描绘的视觉模型来解决这个任务。我们演示了如何调整这样的模型以识别同一基础句子的不同解释，从而允许以统一的方式消除不同歧义类型的句子。

Mar, 2016

香港科技大学在 SemEval-2023 任务 1 中的视觉词义消歧：通过上下文增强和视觉辅助

我们提出了一个多模态检索框架，充分利用了预训练的视觉 - 语言模型、开放知识库和数据集，通过处理上下文与目标词的含义进行匹配、使用提示模板整合匹配的描述和其他文本信息进行图像检索、融合不同模态的上下文信息并用于预测，为词义消歧和多模态学习领域带来了深刻的见解。

Nov, 2023

跨语境多义词上下文词嵌入映射

本文提出两种改进的解决方案，通过将上下文多义词嵌入视为噪声（去除）和通过生成聚类级别的平均锚嵌入以替换上下文多义词嵌入，提高了跨语言语境下上下文词嵌入对齐的微观性能，同时不会损害双语词汇表归纳任务的宏观性能；对于无监督对齐，我们的方法在双语词汇表归纳任务中显著提高了 10 多分。

Sep, 2019

SemEval2023 任务 1 中的 OPI: 面向视觉词义消歧的图像 - 文本嵌入和多模态信息检索

本研究提出采用多模态模型、排序学习以及基于知识的方法来进行词义消歧，并在 SemEval 2023 视觉词义消歧共享任务中荣获波斯语赛道的冠军以及多语言赛道的第三名。

Apr, 2023

统一语义表示的多语言词义消歧

本文提出了一种基于多语言词典建立知识和监督为基础的多语言词义消歧（MWSD）系统的方法，利用统一的语义表示，将多种语言的注释进行共同训练以解决 MWSD 的注释稀缺问题，并在 SemEval-13 和 SemEval-15 数据集上展示了该方法的有效性。

Oct, 2022

基于多语境的多义词嵌入模型

该论文介绍了一种利用多语种语料库改进多义词嵌入的多视角贝叶斯非参数算法，这是第一个能有效利用多语种语料库进行多意词表示学习的方法，结果表明采用多语种语料库可显著提高性能。

Jun, 2017

文化与语言多样性改善视觉表达

我们的研究展示了多语言语境下数据集和模型生成的图像标题之间的显著语义差异，以及不同语言训练的模型在对应语言的测试数据上表现最佳，而在多语言内容上训练的模型在所有评估数据组合上都表现良好，这对于改善图像理解的多样化感知具有重要意义。

Oct, 2023

来自单语多模数据的无监督双语词典归纳

本文提出了一种多语种图像字幕模型，通过联合特征学习将不同语言的单词映射到共同空间，其中学习了从句子上下文中分离出的语言特征和与单词相关的局部视觉特征。实验结果表明该方法在多个语言对上具有有效性。

Jun, 2019