可视化转换叙述
本文提出了一种基于变换的视觉推理任务 (TVR),并构建了 TRANCE 合成数据集以及基于 COIN 的 TRANCO 真实数据集,用于测试机器对于多步变换场景的推理能力。实验结果表明,目前先进的视觉推理模型在基本的单步变换上表现良好,但在多步变换,多视角下的场景以及 TRANCO 数据集上,机器的推理能力与人类差距较大。该研究的提出将有助于推动机器视觉推理的发展。
May, 2023
本文提出一种新的基于转变的视觉推理范式来解决现有的视觉推理方法无法揭示动态推断的局限性,并构建了一个新的数据集 TRANCE,在单步和多步情况下评估了该范式的效果,结果表明该新方法将推动机器视觉推理模型的发展。
Nov, 2020
该研究提出了一种基于 Vision Transformer 的模型来描述图像集,借助双向 LSTM 和注意力机制来捕捉图像的上下文信息和语义关系,模型在 Visual Story-Telling 数据集上的表现明显超过了目前的最先进模型。
Oct, 2022
本文提出了一种新的视觉 - 语言特征模型 (VL feature),通过 Autoregressive Transformer-in-Transformer (TinT) 模型来捕获视频中的语义,同时提出了一种 VL 对比损失 (VL contrastive loss) 来保证嵌入特征与字幕语义匹配,实验证明该方法优于现有的最优方法。
Nov, 2022
本文研究使用自监督任务和少量数据进行训练的 Visual Transformer 网络的表现,并发现新的自监督任务可以在空间关系方面鼓励 VT 网络,从而显著提高其小数据集准确性。
Jun, 2021
视觉变换器(ViTs)在各种情境下取得了最先进的性能,但在涉及视觉关系的任务中却展现出惊人的失误。本文从机械性可解释性的角度研究了 ViTs 用于执行抽象视觉推理的高层视觉算法,并通过一个关系推理任务的案例研究,发现 ViTs 通常表现出两个完全不同的处理阶段,这些阶段在没有明显的归纳偏差的情况下:1)感知阶段,在此阶段提取并存储局部对象特征,2)关系阶段,在此阶段比较对象表示。通过理解 ViTs 的离散处理阶段,可以更精确地诊断和纠正现有和将来模型的缺陷。
Jun, 2024
通过挖掘共同的背景信息,我们提出了一种新颖的视觉变化检测模型 (VcT),它利用图神经网络模型处理特征图像素结构化信息、使用聚类算法提取可靠标记,并通过注意力机制增强这些标记,进而获得更准确的变化图。
Oct, 2023
本文介绍了一种使用视觉转换网络技术的目标导航方法,该方法有效利用场景中各个物体之间的关系和空间位置,以实现方向导航,并通过预训练方案将视觉表示与导航信号进行关联,进一步提高了导航策略的学习效果。实验结果表明,这种方法在 AI2-Thor 等人工环境中的表现优于其他先进的目标导航方法。
May, 2021
本文利用视觉转换器 (ViTs) 作为我们视觉推理的基本模型,通过优化定义为物体实体及其关系概念,推动 ViTs 的推理能力,并介绍了一种新的概念特征字典,以促进全局关系推理和促进语义对象特定一一对应关系学习的局部任务。结果显示,我们的模型 Concept-guided Vision Transformer(或 RelViT)在 HICO 和 GQA 上的性能均优于先前的方法,并充分考虑了 ViT 变体和超参数的稳健性。
Apr, 2022
通过一种名为 VTNet 的新型条件扩散方法,本文研究了从源语言(如英语)到目标语言(如中文)的 “视觉” 场景文本翻译任务,通过生成保留文本视觉特征,如字体、大小和背景的翻译图像来解决文字识别和翻译的挑战,并通过全面的实验和与相关方法的比较验证了 VTNet 的性能。
Aug, 2023