通过多模态部分对齐进行基于视觉信息的 BERT 表示扩展

Dec, 2023

通过多模态部分对齐进行基于视觉信息的 BERT 表示扩展

Expand BERT Representation with Visual Information via Grounded Language Learning with Multimodal Partial Alignment

Cong-Duy Nguyen, The-Anh Vu-Le, Thong Nguyen, Tho Quan, Luu Anh Tuan

TL;DR通过将 BERT 模型的上下文表示与视觉信息进行融合，GroundedBERT 方法在语言任务中明显优于基准模型，解决了语言模型在视觉语境处理中的限制问题。

Abstract

language models have been supervised with both language-only objective and visual grounding in existing studies of visual-grounded language learning. However, due to differences in the distribution and scale of v

language models visual grounding groundedbert representation learning visual information

发现论文，激发创造

BuboGPT：多模态 LLM 中的视觉定位

BuboGPT 是一种多模态的 LLM，具有视觉定位和文本 - 图像 - 音频理解的能力，通过 SAM 和一个两阶段的训练方案来实现实体识别和对应目标的定位。在任意模态组合 (对齐或未对齐) 的情况下，BuboGPT 在与人类交互时表现出令人印象深刻的多模态理解和视觉定位能力。

Jul, 2023

多模态机器翻译的视觉注意力基础神经模型

我们介绍了一种新颖的多模式机器翻译模型，利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义，并实现共享的视觉 - 语言嵌入和翻译器的联合优化，取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上，我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。

Aug, 2018

语言与视觉：基于场景的词语和句子嵌入研究

本研究提出了一种简单且非常有效的预训练词嵌入视觉对齐方法，使得即使对于抽象词，我们也能生成受视觉基础支撑的嵌入，并且在一系列的单词相似性基准测试中证明了视觉基础支撑不仅有益于具体词，还有益于抽象词。

Jun, 2022

从视觉语言模型的快速映射实现地面化开放词汇获取

本文介绍了 Grounded Open Vocabulary Acquisition (GOVA) 作为一种视觉和语言相关的学习机制，并提出了一种基于图像 - 文本对的 object-oriented BERT (OctoBERT）模型，通过大量实验和分析表明，该模型是一种更加快速和一致的 grounded word learner，预先训练所获取的数学能力有助于模型更迅速和稳健地学习无法预知的单词。

Jun, 2023

多模态生成：将语言模型与图像相结合

该研究提出了一种有效的方法，将预训练的纯文本语言模型转移到视觉领域，使其能够处理和生成任意交错的图像和文本数据，并在上下文图像检索和多模态对话等方面实现了强有力的效果。

Jan, 2023

学习跨模态上下文图进行视觉定位

本文提出了一种基于语言引导图表示的方法来捕获全局上下文和关系，以及跨模态图匹配策略来解决多短语视觉定位任务，实验证明我们的方法优于现有技术，并提供了开源代码。

Nov, 2019

像双语婴儿一样：视觉引导双语语言模型的优势

通过使用 MS-COCO-ES 数据集中的英语和西班牙语的图像和字幕来训练 LSTM 语言模型，研究发现视觉基础能够提高语义相似性的理解能力，特别是在跨语言时，但是在抽象词汇方面没有显著优势。研究还指出，为了进一步提高视觉基础的语言模型的实用性，需要更多多语言数据和多语言说话者的感知基础。

Oct, 2022

利用文本为视觉表示建立通用领域基础

本文提出了一种基于自然语言监督的跨模态领域泛化方法，利用视觉和文本交互的表征来实现高级别类别判别的信息融合，并使用可解释的模型来生成解释，从而提高模型的泛化能力和性能。作者的方法在多个数据集上均取得了最新领先的结果。

Jul, 2022

在基于图像场景环境的语义空间中融合视觉语义到句子表示中

本文目的在于通过学习一种中间的 representation space 将视觉信息转移到文本表示中，以解决由于一个视觉场景可以有多种描述方式所导致的文字表示和学习中的问题，作者还提出了两个新的目标，来保证相关元素之间的相似性跨领域地保持和提高分类和语义相关性任务的性能。

Feb, 2020

多模态增量变压器结合视觉定位生成视觉对话

该研究提出了一种多模态增量变形器（MITVG）的视觉指向方法，该方法可以显式地定位与文本实体相关的图像对象，从而帮助模型排除不需要关注的视觉内容，进而在多轮对话历史记录和视觉场景的基础上生成一致且连贯的响应。该模型在 VisDial v0.9 和 v1.0 数据集上实验结果证明了其优越性能。

Sep, 2021