你看懂我想说的话了吗？语言歧义的视觉解决

EMNLPMar, 2016

你看懂我想说的话了吗？语言歧义的视觉解决

Do You See What I Mean? Visual Resolution of Linguistic Ambiguities

Yevgeni Berzak, Andrei Barbu, Daniel Harari, Boris Katz, Shimon Ullman

TL;DR通过感知获得的复杂上下文信息与理解语言相辅相成。本文提出了一项新颖的基于场景的语言理解任务：在给定描绘该句子可能解释之一的视觉场景的情况下，将其消除歧义。为此，我们介绍了一个包含多义句子的新的多模态语料库，表示广泛的句法、语义和语篇歧义，并与可视化不同解释的视频相耦合。我们通过扩展决定句子是否被视频描绘的视觉模型来解决这个任务。我们演示了如何调整这样的模型以识别同一基础句子的不同解释，从而允许以统一的方式消除不同歧义类型的句子。

Abstract

Understanding language goes hand in hand with the ability to integrate complex contextual information obtained via perception. In this work, we present a novel task for grounded language understanding: disambiguating a sentence given a visual scene which depicts one of the possible int

grounded language understanding visual scene perception multimodal corpus syntactic ambiguity semantic ambiguity

发现论文，激发创造

跨语言视觉动词义消歧

本文介绍了一项较为具有挑战性的任务，即跨语言动词语义消歧，并提出了包含 9504 张图像的 MultiSense 数据集，该数据集标注有英语、德语和西班牙语动词。我们证明跨语言动词语义消歧模型在视觉背景下比单模基线表现更好，并且我们的最佳消歧模型所预测的动词意义在多模转换任务中可用于对纯文本机器翻译系统的改进。

Apr, 2019

基于多模态嵌入的动词无监督视觉语义消歧

本文介绍了一项新任务：为动词进行视觉意义消歧，以此作为多模态任务如图像检索和图像描述的基础，并提出了基于 Lesk 算法的无监督算法来执行视觉意义消歧，说明了在有和无标注图像情况下，文本嵌入和多模态嵌入的性能。本文最终提供了 VerSe 数据集，并提供了下载链接。

Mar, 2016

场景描述到描绘任务中的欠规范

为填补目前研究中忽视多模态图像 + 文本系统的隐式性、不确定性和缺陷性的空白，本文提出了一个概念框架，着重考虑生成场景描述的图像的系统。我们概述了有关文本和图像传达意义的不同之处的核心挑战，以及可能由不明确和未规定的因素放大的风险。我们提出和讨论了解决这些挑战的策略，包括生成视觉上模棱两可的图像和生成多样化的图像集。

Oct, 2022

描绘模糊性：对 Winograd 模式挑战的视觉转折

利用 GPT-4 生成提示并使用 Diffusion Attentive Attribution Maps (DAAM) 进行热图分析，我们引入了一个新的数据集 WinoVis，用于在多模态环境中对文本到图像模型进行代词消岐。通过对连续模型版本的评估，我们发现尽管有逐步的进展，Stable Diffusion 2.0 在 WinoVis 上的准确率仅为 56.7％，只略微超过随机猜测。进一步的错误分析确定了未来研究的重要方向，旨在提升文本到图像模型在解释和与复杂视觉世界交互的能力。

May, 2024

SemEval2023 任务 1 中的 OPI: 面向视觉词义消歧的图像 - 文本嵌入和多模态信息检索

本研究提出采用多模态模型、排序学习以及基于知识的方法来进行词义消歧，并在 SemEval 2023 视觉词义消歧共享任务中荣获波斯语赛道的冠军以及多语言赛道的第三名。

Apr, 2023

基于视觉语境的多模态词表示学习

本研究提出了一种同时利用文本和视觉上下文以学习多模态词嵌入的端到端方法，通过将视觉上下文元素整合到多模态 skip-gram 模型中，探索了何种因素可以作为视觉上下文，并进行了实验和分析。

Nov, 2017

视频语言理解：模型架构、模型训练和数据视角的综述

本文综述了视频 - 语言理解系统的关键任务、相关挑战以及模型架构、模型训练和数据观点等方面的方法，并进行了方法间的性能比较，提出了未来研究的有前景的方向。

Jun, 2024

将语言和视觉不确定性一起解决：将分割和介词附着分辨结合在说明场景中

本文针对语言中的歧义问题提出了一种基于图片和联合排序的语义分割和介词短语附着识别方法，采用多个假设的联合排序方法比语言模型单独操作更准确。

Apr, 2016

视觉场景的基于语义 grounded 语义构成

本篇研究介绍了一种基于视觉语言理解模型的单词语义组合来生成复杂指代表达式的理论，介绍了其在空间指代表达式中的应用及在语义理解中对视觉语境的影响研究。

Jun, 2011

视频中的话语解析：一种多模态方法

本文提出 Visual Discourse Parsing 任务，通过识别视频场景来了解视频中场景之间的话语关系，并提出了一种不需要显式身份识别和注释场景的方法识别视觉话语线索。通过构建包含 310 个视频和相应话语线索的新数据集评估所提出的方法，这可能有助于诸如 Visual Dialog 和 Visual Storytelling 等领域的多学科 AI 问题的解决。

Mar, 2019