视觉任务的统一序列接口

Jun, 2022

A Unified Sequence Interface for Vision Tasks

Ting Chen, Saurabh Saxena, Lala Li, Tsung-Yi Lin, David J. Fleet...

TL;DR本文提出一种基于共享像素到序列接口的框架，将计算机视觉中的四种不同任务（对象检测、实例分割、关键点检测和图像字幕）的输出形式都改为序列输出，并且可以通过短提示来实现任务特定的输出，证明可以用单个模型架构和损失函数在这些任务上进行训练，达到与传统模型相似的性能表现。

Abstract

While language tasks are naturally expressed in a single, unified, modeling framework, i.e., generating sequences of tokens, this has not been the case in computer vision. As a result, there is a proliferation of distinct architectures and loss functions for different vision tasks. In

computer vision object detection instance segmentation keypoint detection sequence interface

发现论文，激发创造

通过文本生成统一视觉语言任务

该研究提出了一个统一框架，通过相同的语言建模目标，在单个体系结构中学习不同的任务，实现视频图像理解、语言推理和标签生成等领域的应用。通过在多个基准测试中的表现，这种生成方法（在单个统一的体系结构下）显示出了与最先进的特定任务模型相当的性能，并且还显示了更好的推广能力和单个任务模型相似的多任务学习能力。

Feb, 2021

统一输入输出：视觉、语言和多模态任务的统一模型

Unified-IO 是一种模型，它可以执行各种人工智能任务，包括传统的计算机视觉任务、视觉与语言任务和自然语言处理任务，通过将每个任务的异构输入和输出转换为离散词汇令其有共同的表示方式，从而实现使用一个单一的基于 transformer 的架构，针对视觉和语言领域的 90 多个不同数据集联合训练，其能够在诸如 NYUv2-Depth、ImageNet、VQA2.0 等 16 个不同基准测试中产生强大的结果，这是第一个不需要针对特定任务进行微调即可执行所有 7 个 GRIT 基准任务的模型。

Jun, 2022

Pix2seq: 一种用于目标检测的语言建模框架

Pix2Seq 是一种简单且通用的目标检测框架，不同于现有的方法，它将目标检测视为一种基于观察像素输入的语言建模任务，并通过训练神经网络来感知图像并生成所需的序列，与高度专业化和精心优化的检测算法相比，在具有挑战性的 COCO 数据集上实现了有竞争力的结果

Sep, 2021

通向通用视觉系统

本文提出了一种通用视觉语言体系结构 GPV-1，它可以学习和执行涉及接收图像和生成文本和 / 或边界框的任务，包括分类、定位、视觉问答、字幕等多个任务，并通过实验证明 GPV-1 在多个任务上是有效的，可以重新利用跨任务的概念知识，并可以在零样本情况下执行指称表达式任务。

Apr, 2021

InstructSeq：将视觉任务与指令条件下的多模态序列生成统一

InstructSeq 是一种多模态建模框架，通过灵活的自然语言控制和处理视觉和文本数据，将多样化的视觉任务统一起来。通过使用 LLM 生成的自然语言指令进行训练，InstructSeq 在指定视觉任务的自由形式指令理解方面具有强大的能力，并在语义分割、引用表达分割 / 理解和图像字幕等任务上取得了令人信服的性能。该模型的灵活控制和多任务统一使其具备了类似人类的多样性和泛化能力，并且即将发布其代码。

Nov, 2023

面向视觉识别与推理的统一神经网络架构

图像识别和推理是视觉理解的两个支柱，最近的研究表明，多任务变压器模型可以在视觉识别和推理中提供统一的神经网络架构，通过探索不同的识别任务、数据集和归纳偏好，我们发现对象检测对推理是最有益的任务。

Nov, 2023

在统一的视觉语言模型中发现和解决跨任务不一致性

本论文旨在解决多任务模型在不同输出模态中的一致性问题，通过引入 COCOCON 基准数据集和使用一种基于排名相关性的辅助目标来衡量模型在多任务中的一致性，旨在提高模型的一致性，同时保持模型原有的精度。

Mar, 2023

12 合 1：多任务视觉和语言表示学习

本篇文章通过开发一个大规模、多任务训练体系，研究了不同任务之间的相互关系，提出了一个单一模型，可以在视觉问题回答、基于标题的图像检索、引用表达和多模态验证等四个广泛的任务范畴下，同时取得以往 3 亿多参数内单一任务模型的总和，且性能提高了 2.05 个百分点，并进一步表明，从单一多任务模型微调任务特定模型会进一步提高性能。

Dec, 2019

UniVS：具备提示查询的统一通用视频分割

通过使用提示作为查询，我们提出了一种新颖的统一视频分割 (UniVS) 架构，该架构平均目标的前几帧的提示特征作为初始查询来明确解码掩码，并在掩码解码器中引入了一种目标导向的提示交叉注意力层，以将提示特征集成到内存池中。通过将先前帧中的实体的预测掩码作为其视觉提示，UniVS 将不同的视频分割任务转化为提示引导的目标分割，消除了启发式的帧间匹配过程。我们的框架不仅统一了不同的视频分割任务，还保证在不同的场景中实现了通用的训练和测试，确保了稳健的性能。UniVS 在 10 个具有挑战性的视频分割基准上展现了出色的性能和通用性，涵盖了视频实例、语义、全景、物体和引用分割任务。

Feb, 2024

多模态序列到序列任务的神经交互预测系统

我们展示了一个用于处理多模态序列到序列任务的神经交互预测系统的演示。该系统实现了客户端 - 服务器架构，可以通过一个网站访问完成不同的任务，如机器翻译、图像和视频字幕等，并在每次人工纠正输入时提供可供选择的替代假设，旨在减少此过程中人工纠正的工作量。该系统的代码均已公开发布。

May, 2019