通过场景图增强知识的视觉 - 语言表示：ERNIE-ViL

AAAIJun, 2020

通过场景图增强知识的视觉 - 语言表示：ERNIE-ViL

ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph

Fei Yu, Jiji Tang, Weichong Yin, Yu Sun, Hao Tian...

TL;DRERNIE-ViL 是一种以结构化场景图中的知识为基础的知识增强方法，通过构建预测任务，即物体预测、属性预测和关系预测任务，学习视觉 - 语言的联合表征，能在多种跨模态下游任务中取得最先进的表现。

Abstract

We propose a knowledge-enhanced approach, ernie-vil, which incorporates structured knowledge obtained from scene graphs to learn joint rep

ernie-vil structured knowledge vision-language scene graphs cross-modal tasks

发现论文，激发创造

ERNIE-ViLG：双向视觉语言生成统一预训练

本文提出了基于 Transformer 模型的统一生成预训练框架 - ERNIE-ViLG，旨在处理双向图像 - 文本生成任务，采用图像量化模型并将图像生成和文本生成条件建模为自回归的生成任务，通过双向图像 - 文本生成建模易于实现语义对齐。在大规模数据集上进行训练，取得了针对文本 - 图像合成和图像描述任务的最佳表现。

Dec, 2021

e-ViL: 视觉语言任务中自然语言解释的数据集和基准测试

本研究介绍了 e-ViL 和 e-SNLI-VE 为可解释的视觉语言任务建立了一个统一的评估框架。该任务旨在生成自然语言解释，并涉及四个模型和三个数据集。研究人员还提出了一种新模型，该模型结合了 UNITER 和 GPT-2，对所有数据集的现有技术水平取得了很大的突破。

May, 2021

ERNIE: 知识融合增强的表示学习

ERNIE 是一种新颖的语言表示模型，通过知识集成增强，它设计了基于实体级屏蔽和短语级屏蔽的屏蔽策略，实验结果证明，ERNIE 在自然语言推理、语义相似性、命名实体识别、情感分析和问答等五个中文自然语言处理任务上均取得了新的最佳表现。

Apr, 2019

基于图形的连续环境中视觉语言导航的环境表征

本研究介绍了一种基于环境表示图（ERG）的跨模式注意力导航模型来解决语言说明与环境之间的联系问题，并在 VLN-CE 任务的成功率方面表现出令人满意的表现。

Jan, 2023

SGEITL: 基于场景图增强的图像 - 文本学习，用于视觉常识推理

该论文提出了一种场景图增强的图像 - 文本学习框架，其中利用视觉场景图结构进行常识推理，通过多跳图变压器实现模型结构的正则化，引入了一种利用文本注释进行域相关的视觉场景图训练和生成的弱监督学习方法并在 VCR 和其他任务中进行了广泛的实验，发现其显着提高了性能并证明了每个提出的组件的有效性。

Dec, 2021

使用场景图将结构化表示法加入预训练视觉与语言模型

研究表明，为了改善 VL 模型的结构理解能力，场景图等结构化标注数据虽然耗时、昂贵和繁琐，但只需要小型数据集，就足以使用专用的模型架构和新的训练范式来提高 VL 模型的表现，通过直接使用场景图标签监督图像和文本编码器，以及添加专门的自适应 SG 令牌和新的适应技术来提高 SG 信息的预测。

May, 2023

鸟瞰视角下的视觉语言导航场景图

利用 BEV 场景图编码室内环境的场景布局和几何线索以解决视觉语言导航中对于三维场景几何和全景观察选择的限制，该方法在 REVERIE、R2R 和 R4R 数据集上显著优于现有方法，展示了 BEV 感知在视觉语言导航中的潜力。

Aug, 2023

ERNIE-ViLG 2.0: 使用知识增强的去噪成分混合模型改进文本到图像扩散模型

本文提出了 ERNIE-ViLG 2.0，一种大规模中文文本到图像扩散模型，通过将场景中的关键元素的精细文本和视觉知识纳入模型，并利用不同的去噪专家在不同的去噪阶段，逐步提高生成图像的质量，并在 MS-COCO 上实现了新的最先进的零样本 FID 得分，而且在图像保真度和图像 - 文本对齐方面显着优于最近的模型，同时得到了 ViLG-300 双语提示集的人类评估。

Oct, 2022

语言和视觉实体关系图用于智能体导航

通过提出一种语言和视觉实体关系图及信息传递算法，成功解决了视觉和语言的跨模态关系，提升了在 Room-to-Room 和 Room-for-Room 测试数据集的表现。

Oct, 2020

基于因果关系的跨模态表示学习在视觉和语言导航中的应用

提出了一种基于因果学习范式的统一框架 CausalVLN，通过建立关于视觉和语言的结构因果模型 (SCM) 的合理假设，并引入视觉和语言门路因果编码器，在训练和验证期间实现无偏特征表达，增强了智能体在不同环境中的泛化能力，并在三个 VLN 数据集上的实验证明了该方法的优越性和显著缩小了在已知和未知环境之间的性能差距。

Mar, 2024