ViStruct: 基于课程引导的代码 - 视觉表征的视觉结构知识提取
本文介绍一种结构感知的视觉 - 语言预训练模型 ——Structure-CLIP,它利用场景图实现对细粒度语义信息的关注,结合结构知识来提高多模态语言表示的表示能力,并在不同的下游任务中得到了最先进的表现。
May, 2023
本文提出了一种对视觉语言预训练模型进行对事件及相关参数角色理解的对比学习框架,并结合文本信息提取技术,利用多个提示函数来构造事件结构,设计基于最优传输的事件图形对齐损失来捕获事件参数结构,通过无监督学习进行预训练,并在零样本的情况下取得了优秀的性能。
Jan, 2022
本文提出了一种对视觉场景图和语言依赖树进行联合建模的无监督学习任务,并构造了一个新的数据集 VLParse,提出了基于对比学习的 VLGAE 框架用于 VL 短语理解和语言语法归纳。实验结果表明了视觉信息和语言依赖关系对于 VL 结构建模的有效性。
Mar, 2022
该论文介绍了一种名为 ConStruct-VL 的 benchmark,旨在解决大规模预训练的视觉 - 语言模型中存在的结构化 VL 概念推理问题,为此提出了一种基于 Adversarial Pseudo-Replay 的无数据持续学习方法,并结合一种不占用记忆的分层 LoRA 神经结构,取得了比所有无数据方法高出约 7% 的性能。
Nov, 2022
本文讨论如何更好地将文本转化为对应的图像序列,包括利用 Transformers、constituency parse trees、commonsense 信息以及 visuo-spatial 信息,最终提高了生成图像的质量和一致性。
Oct, 2021
该论文提出了统一的视觉语义嵌入方法,采用对比学习的方法从仅有的图像 - 标题对中对不同水平的概念进行对齐,对于句子中出现的语义组件进行了有效处理,证明该方法具有鲁棒性和可靠性。
Apr, 2019
我们引入了一种新的注意力机制,称为结构自注意力(StructSA),它利用注意力的键 - 查询交互中自然产生的丰富相关模式。使用结构自注意力作为主要构建模块,我们开发了结构视觉转换器(StructViT),并在图像和视频分类任务上评估其有效性,在 ImageNet-1K,Kinetics-400,Something-Something V1&V2,Diving-48 和 FineGym 数据集上取得了最先进的结果。
Apr, 2024
研究表明,为了改善 VL 模型的结构理解能力,场景图等结构化标注数据虽然耗时、昂贵和繁琐,但只需要小型数据集,就足以使用专用的模型架构和新的训练范式来提高 VL 模型的表现,通过直接使用场景图标签监督图像和文本编码器,以及添加专门的自适应 SG 令牌和新的适应技术来提高 SG 信息的预测。
May, 2023
本研究提出了 Visually Grounded Neural Syntax Learner (VG-NSL),一种无需显式监督即可学习句法表示和结构的方法。VG-NSL 使用自然图像和标注的配对描述学习语法树结构,并在 MSCOCO 数据集和 Multi30K 数据集上展示了 VG-NSL 超越了不使用视觉元素作为辅助的无监督分析方法。
Jun, 2019