VUT: 面向多模态多任务用户界面建模的通用 UI Transformer

Dec, 2021

VUT: 面向多模态多任务用户界面建模的通用 UI Transformer

VUT: Versatile UI Transformer for Multi-Modal Multi-Task User Interface Modeling

Yang Li, Gang Li, Xin Zhou, Mostafa Dehghani, Alexey Gritsenko

TL;DR本研究提出了一种 VUT 多任务模型，可以同时完成 UI 镜像和结构编码、UI 对象检测、问题回答和命令接地等 5 个不同的任务。实验结果表明，VUT 在减少多任务模型数量和占用空间的同时，准确度也不逊于单独训练的基准模型。

Abstract

User interface modeling is inherently multimodal, which involves several distinct types of data: images, structures and language. The tasks are also diverse, including object detection, language generation and

versatile ui transformer multimodal input object detection language generation grounding

发现论文，激发创造

UIBert：为界面理解学习通用多模态表示

本文提出了 UIBert，一种基于 transformer 的联合图像文本模型，通过在大规模未标记的 UI 数据上进行新颖的预训练任务学习 UI 及其组件的通用特征表示，以解决智能设备可访问性和简化使用的问题。实验表明，UIBert 在九个实际 UI 任务中，表现优于强大的多模态基线达到了最高 9.26% 的准确率。

Jul, 2021

VU-BERT：一个视觉对话的统一框架

本文提出了一种名为 VU-BERT 图文联合嵌入的框架，通过用 patch projection 获取视觉嵌入来简化模型，从而解决了现有研究中用于建模交互的具有特定模态的模块难以使用的问题，并在可视对话任务上取得了较高的竞争性表现。

Feb, 2022

UniT：统一变形器进行多模态多任务学习

我们提出了一种名为 UniT 的统一 Transformer 模型，该模型可以同时学习不同领域中最重要的任务，从目标检测到自然语言理解和多模态推理，在编码器 - 解码器架构的基础上，通过编码器对每个输入模态进行编码，并使用共享解码器对编码的输入表示进行每个任务的预测，然后是特定于任务的输出头。我们的实验证明，在 8 个数据集上联合学习 7 个任务，使用比以前的工作更少的参数，在每个任务上都获得了强大的性能。

Feb, 2021

UMT: 统一多模态 Transformers 用于联合视频片段检索和亮点检测

本研究提出了一个名为 UMT 的统一多模态转换器的框架，能够实现时刻检索和精华视频检测的联合优化，并且能够轻松地退化为解决单个问题。实验结果表明，该方法在各种设置下都具有有效性、优越性和灵活性。

Mar, 2022

GiT: 通向通用视觉 Transformer 的普适语言接口

这篇论文提出了一种简单而有效的框架，名为 GiT，它能够同时适用于各种视觉任务，只需一个简单的 ViT 模型。

Mar, 2024

融合多种模态信息的统一视频物体分割时序变换器

本文提出了 MUTR，通过统一框架和两种策略，实现了同时支持文本和音频引用的视频对象分割，实现了视频内部各帧的时序交互，从而提高了语义对齐和目标对应的准确性。MUTR 在多个数据集上都达到了更好的 J＆F 性能。

May, 2023

UTC: 一种带有 Inter-Task 对比学习的统一 Transformer，用于视觉对话

本文提出了一种基于对比学习的框架 UTC，通过联合学习来实现对话中的判别和生成任务，该框架考虑了对话的上下文和目标答案作为锚点，利用两种相辅相成的对比损失来加强彼此的表示学习信号，并在 VisDial v1.0 数据集上进行了评估，在判别和生成任务上均超越了现有方法，并且在 Recall@1 上比以前的状态 - of-the-art 生成方法提高了 2 个百分点以上。

May, 2022

UniTR: 统一高效的多模态 Transformer 用于鸟瞰表示

UniTR 是一种高效的多模态骨干网络，用于处理多传感器数据并实现准确可靠的自动驾驶系统的感知。它引入了一种模态不可知的转换编码器来处理不同的传感器数据，并通过视角不一致的传感器数据进行并行模态表示学习和自动跨模态交互，无需额外的融合步骤。它通过同时考虑语义丰富的 2D 透视图和几何感知的 3D 稀疏邻域关系，提出了一种新颖的多模态融合策略。在 nuScenes 评测上，UniTR 在 3D 目标检测方面取得了 + 1.1 NDS 的提高，在 BEV 地图分割方面取得了 + 12.0 mIoU 的提高，并具有较低的推理延迟。

Aug, 2023

使用 Transformer 实现 3D 物体检测的基于体素的统一表示

UVTR 提出了一种统一的框架，旨在提高单模或跨模 3D 检测的准确性和鲁棒性，通过设计模态特定空间，保留体素空间并开发不同传感器的输入，实现几何感知点云和图像的上下文特征的交互，从而在 nuScenes 测试集中获得了领先的性能。

Jun, 2022

MulT: 一种端到端的多任务学习变压器

我们开发了一种称为 MulT 的端到端多任务学习 Transformer 框架，用于同时学习多个高级视觉任务，包括深度估计、语义分割、重着色、表面法线估计、2D 关键点检测和边缘检测。我们的框架基于 Swin transformer 模型，利用任务特定的基于 Transformer 的解码器头为每个视觉任务进行预测，并采用共享的注意机制模型来建模跨任务的依赖关系。我们在多个多任务基准测试中评估了我们的模型，显示出我们的 MulT 框架优于最先进的多任务卷积神经网络模型和所有各自的单任务 Transformer 模型。我们的实验进一步突出了共享所有任务的注意力的优点，并证明我们的 MulT 模型具有鲁棒性和很好的泛化性能。

May, 2022