ViStruct: 基于课程引导的代码 - 视觉表征的视觉结构知识提取

EMNLPNov, 2023

ViStruct: 基于课程引导的代码 - 视觉表征的视觉结构知识提取

ViStruct: Visual Structural Knowledge Extraction via Curriculum Guided Code-Vision Representation

Yangyi Chen, Xingyao Wang, Manling Li, Derek Hoiem, Heng Ji

TL;DR在这项研究中，我们提出了 ViStruct，这是一个用于学习视觉结构知识提取的训练框架，它通过两个新颖的设计元素来改进最新的视觉 - 语言模型（VLMs）在结构化知识抽取方面的性能限制。

Abstract

State-of-the-art vision-language models (VLMs) still have limited performance in structural knowledge extraction, such as relations between objects. In this work, we present →

vision-language models structural knowledge extraction vistruct visual structural information curriculum-based learning

发现论文，激发创造

Structure-CLIP: 使用结构信息增强多模态语言表示

本文介绍一种结构感知的视觉 - 语言预训练模型 ——Structure-CLIP，它利用场景图实现对细粒度语义信息的关注，结合结构知识来提高多模态语言表示的表示能力，并在不同的下游任务中得到了最先进的表现。

May, 2023

CLIP-Event: 连接文本和图像的事件结构

本文提出了一种对视觉语言预训练模型进行对事件及相关参数角色理解的对比学习框架，并结合文本信息提取技术，利用多个提示函数来构造事件结构，设计基于最优传输的事件图形对齐损失来捕获事件参数结构，通过无监督学习进行预训练，并在零样本的情况下取得了优秀的性能。

Jan, 2022

无监督视觉 - 语言解析：通过依赖关系无缝桥接视觉场景图与语言结构

本文提出了一种对视觉场景图和语言依赖树进行联合建模的无监督学习任务，并构造了一个新的数据集 VLParse，提出了基于对比学习的 VLGAE 框架用于 VL 短语理解和语言语法归纳。实验结果表明了视觉信息和语言依赖关系对于 VL 结构建模的有效性。

Mar, 2022

ConStruct-VL：数据无关的连续结构化 VL 概念学习

该论文介绍了一种名为 ConStruct-VL 的 benchmark，旨在解决大规模预训练的视觉 - 语言模型中存在的结构化 VL 概念推理问题，为此提出了一种基于 Adversarial Pseudo-Replay 的无数据持续学习方法，并结合一种不占用记忆的分层 LoRA 神经结构，取得了比所有无数据方法高出约 7% 的性能。

Nov, 2022

将视觉空间、语言和常识结构融合于故事可视化

本文讨论如何更好地将文本转化为对应的图像序列，包括利用 Transformers、constituency parse trees、commonsense 信息以及 visuo-spatial 信息，最终提高了生成图像的质量和一致性。

Oct, 2021

UniVSE: 通过结构化语义表示实现强健的视觉语义嵌入

该论文提出了统一的视觉语义嵌入方法，采用对比学习的方法从仅有的图像 - 标题对中对不同水平的概念进行对齐，对于句子中出现的语义组件进行了有效处理，证明该方法具有鲁棒性和可靠性。

Apr, 2019

Pix2Struct: 屏幕截图解析用于视觉语言理解的预训练

Pix2Struct 是一种预先训练的图像到文本模型，能够解析丰富的文本，可用于多个领域任务，实现了最先进的结果。

Oct, 2022

学习视觉 Transformer 的相关结构

我们引入了一种新的注意力机制，称为结构自注意力（StructSA），它利用注意力的键 - 查询交互中自然产生的丰富相关模式。使用结构自注意力作为主要构建模块，我们开发了结构视觉转换器（StructViT），并在图像和视频分类任务上评估其有效性，在 ImageNet-1K，Kinetics-400，Something-Something V1＆V2，Diving-48 和 FineGym 数据集上取得了最先进的结果。

Apr, 2024

使用场景图将结构化表示法加入预训练视觉与语言模型

研究表明，为了改善 VL 模型的结构理解能力，场景图等结构化标注数据虽然耗时、昂贵和繁琐，但只需要小型数据集，就足以使用专用的模型架构和新的训练范式来提高 VL 模型的表现，通过直接使用场景图标签监督图像和文本编码器，以及添加专门的自适应 SG 令牌和新的适应技术来提高 SG 信息的预测。

May, 2023

视觉引导的神经语法习得

本研究提出了 Visually Grounded Neural Syntax Learner (VG-NSL)，一种无需显式监督即可学习句法表示和结构的方法。VG-NSL 使用自然图像和标注的配对描述学习语法树结构，并在 MSCOCO 数据集和 Multi30K 数据集上展示了 VG-NSL 超越了不使用视觉元素作为辅助的无监督分析方法。

Jun, 2019