无监督的视频视觉定位词汇翻译

CVPRMar, 2020

Visual Grounding in Video for Unsupervised Word Translation

Gunnar A. Sigurdsson, Jean-Baptiste Alayrac, Aida Nematzadeh, Lucas Smaira, Mateusz Malinowski...

TL;DR利用视觉基础方法，通过学习不成对指导视频中讲解的语言产生共同的视觉表示方法。我们可以将这种共同的表示方法用于单词映射和跨语言翻译，尤其是对于 “视觉” 单词。同时，我们的基于视觉 - 文本的转换算法 MUVE 提高了非监督文本翻译技术的性能，特别是处理少见单词和低资源语言数据时。

Abstract

There are thousands of actively spoken languages on Earth, but a single visual world. Grounding in this visual world has the potential to bridge the gap between all these languages. Our goal is to use visual grounding to improve →

visual grounding unsupervised word mapping embeddings hybrid visual-text mapping low-resource languages

发现论文，激发创造

跨语言词向量的视觉定位

通过在英语、阿拉伯语和德语等语言间建立隐式的视觉及语言空间交互，研究探讨跨语言的词嵌入的视觉基础。结果表明，跨语言知识可以增强相似语言的嵌入性能，但德语或英语与阿拉伯语之间的跨语言基础稍有劣化，在归类基准上，阿拉伯语对英语改进最多。该实验为跨语言视觉基础的进一步研究提供了基础。

Sep, 2022

语言与视觉：基于场景的词语和句子嵌入研究

本研究提出了一种简单且非常有效的预训练词嵌入视觉对齐方法，使得即使对于抽象词，我们也能生成受视觉基础支撑的嵌入，并且在一系列的单词相似性基准测试中证明了视觉基础支撑不仅有益于具体词，还有益于抽象词。

Jun, 2022

多模态机器翻译的视觉注意力基础神经模型

我们介绍了一种新颖的多模式机器翻译模型，利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义，并实现共享的视觉 - 语言嵌入和翻译器的联合优化，取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上，我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。

Aug, 2018

抽象和具体词汇的视觉定位：对 Günther 等人 (2020) 的回应

本文探讨语言与视觉的互动方式对视觉基础单词嵌入的影响，并使用 Günther 等人 (2020) 的行为实验说明了基于视觉图像建模的嵌入模型在人类的行为表现上更佳。同时发现抽象概念从视觉连接的角度受到视觉基础单词的间接影响。

Jun, 2022

视觉基准帮助在低数据环境中学习词义

通过对具有意义的监督的视觉数据进行训练，我们发现在具有限定语言数据的情况下，视觉监督可以提高词汇学习的效率，但这种改进是有限的，并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。

Oct, 2023

通过视觉语言验证和迭代推理来改善视觉定位

本研究提出了一种基于 transformer 的视觉定位框架，通过建立文本条件的区分性特征和执行多阶段跨模态推理来实现精确的视觉定位，并提出了基于文本的视觉上下文信息编码器和多阶段解码器以实现最新的性能。

Apr, 2022

无监督视觉 grounding 的学习：通过语义自监督

本文提出了一种新型的无监督视觉基础框架，使用概念学习作为代理任务来获得自我监督，以鼓励模型定位和解释语义属性，在多项实验中，该方法在图像本体库、ReferItGame 数据集上分别提升了 5.6% 和 5.8%，在 Flickr30k 数据集上达到了与最先进的表现相媲美的水平。

Mar, 2018

看见优势：通过视觉衍生词嵌入更好地捕捉人类的语义知识

本文旨在利用图像丰富文本语义模型，以更好地捕捉词汇意义的认知方面，并通过大型启动实验展示在视觉基础词嵌入中添加视觉信息的预测性能更好，其中与人类单词相似性的相关性也更高，并展示了视觉基础嵌入可以捕捉到仅使用纯文本不能提取的信息。

Feb, 2022

像双语婴儿一样：视觉引导双语语言模型的优势

通过使用 MS-COCO-ES 数据集中的英语和西班牙语的图像和字幕来训练 LSTM 语言模型，研究发现视觉基础能够提高语义相似性的理解能力，特别是在跨语言时，但是在抽象词汇方面没有显著优势。研究还指出，为了进一步提高视觉基础的语言模型的实用性，需要更多多语言数据和多语言说话者的感知基础。

Oct, 2022

基于文本的视觉场景口语理解监督

这篇研究论文主要研究了通过视觉模型来对口语语音进行语义理解，在低资源语言中通过传统的管道方法和端到端方法来提高模型性能，并比较发现管道方法比端到端方法更适用于足够的文本情况下，而翻译可以有效地代替转录，但需要更多的数据才能获得类似的结果。

Oct, 2020