语言结构作为视觉场景图生成的弱监督
文章提出了一种弱监督方法,该方法以图像 - 句子对为输入,学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型,使用两种精心设计的损失函数学习短语的视觉基础,并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。
May, 2017
研究表明,为了改善 VL 模型的结构理解能力,场景图等结构化标注数据虽然耗时、昂贵和繁琐,但只需要小型数据集,就足以使用专用的模型架构和新的训练范式来提高 VL 模型的表现,通过直接使用场景图标签监督图像和文本编码器,以及添加专门的自适应 SG 令牌和新的适应技术来提高 SG 信息的预测。
May, 2023
本文提出了一种结合图卷积网络(GCN)的视觉语义单元对象相互作用的图形语义和几何建模方法,利用上下文门控注意力模块将当前单词与视觉语义单元对齐,针对 MS-COCO 图像字幕数据集,与现有方法相比报告了更好的结果。
Aug, 2019
通过利用大型语言模型和链式思维及上下文少样本学习策略,我们提出了一种新方法:用于弱监督场景图生成的大型语言模型,可以从图片标题中提取三元组并与目标数据的实体 / 谓词类对齐,有效地解决语义过度简化和低密度场景图的问题,实验证明该方法在 Recall@K 和平均 Recall@K 上相较于现有的弱监督场景图生成方法具有显著的提升,且能够以少量的训练图片进行有效的模型训练。
Oct, 2023
通过视觉语言辅助伪标记,我们提出了 3D-VLAP,一种弱监督的三维场景图生成方法,能够对三维点云场景进行语义对齐并生成场景图,从而在减轻数据标注压力的同时实现与完全监督方法可比较的效果。
Apr, 2024
本文提出了一种对视觉场景图和语言依赖树进行联合建模的无监督学习任务,并构造了一个新的数据集 VLParse,提出了基于对比学习的 VLGAE 框架用于 VL 短语理解和语言语法归纳。实验结果表明了视觉信息和语言依赖关系对于 VL 结构建模的有效性。
Mar, 2022
研究如何使用图像和相关描述文本生成合成的 Q-A 对集合,而无需人工标注,同时利用空间金字塔图像块作为一种简单而有效的 VQA 模型替代方案。
Dec, 2020
本文提出引入场景图和句法树来解决跨语言图像描述中存在的不相关性和表达不流畅的问题,并介绍了一种跨语言和跨模态的后向翻译训练方法,实现图像到最终描述的完全对齐,实验结果表明该模型在提高图像描述的相关性和流畅性方面表现出很大的优势。
May, 2023
本文提出了一种新的图像字幕架构,通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成,实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验,证明该框架在多种评估指标下取得了业内最优表现。
Jun, 2020
本文讨论如何更好地将文本转化为对应的图像序列,包括利用 Transformers、constituency parse trees、commonsense 信息以及 visuo-spatial 信息,最终提高了生成图像的质量和一致性。
Oct, 2021