Pixel-BERT：基于深度多模态 Transformer 实现图像像素与文本的对齐

Apr, 2020

Pixel-BERT：基于深度多模态 Transformer 实现图像像素与文本的对齐

Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers

Zhicheng Huang, Zhaoyang Zeng, Bei Liu, Dongmei Fu, Jianlong Fu

TL;DRPixel-BERT 是一种多模态的深度转换器，可以通过使用图像和文本数据对其进行联合学习，从而在像素和文本级别上进行语义连接，实现视觉和语言任务的更准确和彻底的连接，并解决了视觉任务中语义标签不平衡的问题。

Abstract

We propose pixel-bert to align image pixels with text by deep multi-modal transformers that jointly learn visual and language embedding in a unified end-to-end framework. We aim to build a more accurate and thoro

pixel-bert multi-modal transformers visual and language embedding image-text matching downstream tasks

发现论文，激发创造

ImageBERT：利用大规模弱监督图像 - 文本数据的跨模态预训练

本文提出了一种新的视觉 - 语言预训练模型 ——ImageBERT，用于图像 - 文本联合嵌入，该模型基于 Transformer，可以将不同的模态作为输入，并建模它们之间的关系。通过多阶段的预训练策略，可以提高预训练质量，最终在图像检索和文本检索任务上获得了新的最先进结果。

Jan, 2020

像素的语言建模

该文章介绍了 PIXEL，一种基于像素的预训练语言模型，通过将文本渲染为图像，PIXEL 可以处理不同语言，特别是非拉丁文字。实验发现 PIXEL 在语法和语义处理方面表现优异，且对于噪声文本的输入更为稳健。

Jul, 2022

交叉 BERT 用于点云预训练

通过引入 BERT 到跨模态的环境中，本文提出了一种新的跨模态 BERT 风格的自监督学习范式，称为 Cross-BERT，通过探索相同对象 / 场景的 2D 和 3D 数据之间的隐含语义和几何关系来提高 3D 点云表示的性能，以及 BERT 在不同模态之间的传递能力。

Dec, 2023

文本的双模态：视觉和文本生成预训练

对于像素级语言模型，本论文介绍了一种新颖的预训练框架，通过在超过 4 亿个文档渲染的 RGB 图像上预训练，采用双模态训练方案，结合视觉数据和文本数据，通过下一个块预测和分类头预测进行训练，并展示了将视觉和文本数据结合的潜力及有效性。

Apr, 2024

训练端到端的视觉语言变换器的实证研究

该研究展示了一个名为 METER 的多模态端到端 Transformer 框架，研究了如何设计和预训练一个完全基于 Transformer 的视听模型以及它们的性能，通过在多个维度上对模型设计进行分解，并使用预训练的增强模型，达到了相对于基于区域特征的模型更好的性能，即在 VQAv2 测试数据集上取得了 77.64% 的准确率，超过了以前的最优模型，并且在最佳情况下可以达到 80.54％的准确率。

Nov, 2021

图像作为外语：BEiT 预训练模型用于所有视觉和视觉语言任务

本文介绍了通用的多模态基础模型 BEiT-3，通过三个方面的改进：骨干架构、预训练任务和模型扩展，实现了在视觉和视觉语言任务上的最先进转移性能。

Aug, 2022

SemVLP: 多层次语义对齐的视觉语言预训练

本文提出 SemVLP 预训练方法，通过单流预训练和双流预训练相结合，使用共享 Transformer 网络和可插入的跨模态注意模块，在不同的语义层次上对图像和文本进行联合对齐，以对齐跨模态表示，实验表明该方法可对齐不同语义粒度。

Mar, 2021

基于文本图像关系传播的 BERT 模型用于多模态命名实体识别（Multimodal NER）

本文介绍了一种文本 - 图像关系传播的方法，将其集成到多模态 BERT 模型中，通过使用软或硬门选择视觉线索，并提出了一种多任务学习算法，实现对多模态命名实体识别数据集的训练，最终在该数据集上实现了最先进的性能。

Feb, 2021

深度视觉语义对齐生成图像描述

本文介绍了一个基于卷积神经网络、双向递归神经网络和多模态嵌入的模型，用于生成图像及其区域的自然语言描述，并展示了在多个数据集上，该模型的对齐模型均优于基准检索结果，生成的描述显著优于检索结果和基准。

Dec, 2014

InterBERT：多模态预训练中的视觉 - 语言交互

该论文提出了一种基于多模态预训练的新型模型 InterBERT，通过预训练的方式实现了多个任务，包括掩码片段建模、掩码区域建模和图像与文本匹配，并在视觉和语言下游任务上进行了 fine-tuning，最终实现了基于主题的推荐和基于文本的图像检索。

Mar, 2020