可视化转换叙述

May, 2023

Visual Transformation Telling

Xin Hong, Yanyan Lan, Liang Pang, Jiafeng Guo, Xueqi Cheng

TL;DR本文提出了一种新的视觉推理任务：Visual Transformation Telling (VTT)，并设计了一种基于 VTT 的机器学习模型 TTNet，该模型使用 CrossTask 和 COIN 等视频数据集进行训练与测试并在具有表现力和泛化性方面优于其他模型。

Abstract

In this paper, we propose a new visual reasoning task, called Visual transformation telling (VTT). This task requires a machine to describe the transformation that occurred between every two adjacent states (i.e.

visual reasoning transformation telling machine learning video datasets ttnet

发现论文，激发创造

从状态到转换的视觉推理

本文提出了一种基于变换的视觉推理任务 (TVR)，并构建了 TRANCE 合成数据集以及基于 COIN 的 TRANCO 真实数据集，用于测试机器对于多步变换场景的推理能力。实验结果表明，目前先进的视觉推理模型在基本的单步变换上表现良好，但在多步变换，多视角下的场景以及 TRANCO 数据集上，机器的推理能力与人类差距较大。该研究的提出将有助于推动机器视觉推理的发展。

May, 2023

基于转换的视觉推理

本文提出一种新的基于转变的视觉推理范式来解决现有的视觉推理方法无法揭示动态推断的局限性，并构建了一个新的数据集 TRANCE，在单步和多步情况下评估了该范式的效果，结果表明该新方法将推动机器视觉推理模型的发展。

Nov, 2020

基于视觉 Transformer 的图像描述故事模型

该研究提出了一种基于 Vision Transformer 的模型来描述图像集，借助双向 LSTM 和注意力机制来捕捉图像的上下文信息和语义关系，模型在 Visual Story-Telling 数据集上的表现明显超过了目前的最先进模型。

Oct, 2022

VLTinT: 视觉语言双重 Transformer，用于连贯的视频段落字幕生成

本文提出了一种新的视觉 - 语言特征模型 (VL feature)，通过 Autoregressive Transformer-in-Transformer (TinT) 模型来捕获视频中的语义，同时提出了一种 VL 对比损失 (VL contrastive loss) 来保证嵌入特征与字幕语义匹配，实验证明该方法优于现有的最优方法。

Nov, 2022

使用小数据集高效训练视觉 Transformer

本文研究使用自监督任务和少量数据进行训练的 Visual Transformer 网络的表现，并发现新的自监督任务可以在空间关系方面鼓励 VT 网络，从而显著提高其小数据集准确性。

Jun, 2021

超越感知之门：视觉转换器表示对象之间关系

视觉变换器（ViTs）在各种情境下取得了最先进的性能，但在涉及视觉关系的任务中却展现出惊人的失误。本文从机械性可解释性的角度研究了 ViTs 用于执行抽象视觉推理的高层视觉算法，并通过一个关系推理任务的案例研究，发现 ViTs 通常表现出两个完全不同的处理阶段，这些阶段在没有明显的归纳偏差的情况下：1）感知阶段，在此阶段提取并存储局部对象特征，2）关系阶段，在此阶段比较对象表示。通过理解 ViTs 的离散处理阶段，可以更精确地诊断和纠正现有和将来模型的缺陷。

Jun, 2024

VcT：用于遥感图像变化检测的视觉变化 Transformer

通过挖掘共同的背景信息，我们提出了一种新颖的视觉变化检测模型 (VcT)，它利用图神经网络模型处理特征图像素结构化信息、使用聚类算法提取可靠标记，并通过注意力机制增强这些标记，进而获得更准确的变化图。

Oct, 2023

VTNet: 面向对象导航的视觉 Transformer 网络

本文介绍了一种使用视觉转换网络技术的目标导航方法，该方法有效利用场景中各个物体之间的关系和空间位置，以实现方向导航，并通过预训练方案将视觉表示与导航信号进行关联，进一步提高了导航策略的学习效果。实验结果表明，这种方法在 AI2-Thor 等人工环境中的表现优于其他先进的目标导航方法。

May, 2021

RelViT: 用于视觉关系推理的概念引导视觉 Transformer

本文利用视觉转换器 (ViTs) 作为我们视觉推理的基本模型，通过优化定义为物体实体及其关系概念，推动 ViTs 的推理能力，并介绍了一种新的概念特征字典，以促进全局关系推理和促进语义对象特定一一对应关系学习的局部任务。结果显示，我们的模型 Concept-guided Vision Transformer（或 RelViT）在 HICO 和 GQA 上的性能均优于先前的方法，并充分考虑了 ViT 变体和超参数的稳健性。

Apr, 2022

走向场景文本的场景文本翻译

通过一种名为 VTNet 的新型条件扩散方法，本文研究了从源语言（如英语）到目标语言（如中文）的 “视觉” 场景文本翻译任务，通过生成保留文本视觉特征，如字体、大小和背景的翻译图像来解决文字识别和翻译的挑战，并通过全面的实验和与相关方法的比较验证了 VTNet 的性能。

Aug, 2023