In-Context Translation: 走向图像识别、处理和生成的统一化

Apr, 2024

In-Context Translation: 走向图像识别、处理和生成的统一化

In-Context Translation: Towards Unifying Image Recognition, Processing, and Generation

Han Xue, Qianru Sun, Li Song, Wenjun Zhang, Zhiwu Huang

TL;DR我们提出了一种称为 In-Context Translation (ICT) 的通用学习框架，用于统一视觉识别、图像处理和条件图像生成。ICT 通过统一减少了特定任务模型设计所带来的内在归纳偏差，并最大程度地增强了相似任务之间的相互促进。在实验中，ICT 统一了十个视觉任务，并在各自的基准测试中展示了令人印象深刻的性能。与其竞争对手（例如 Painter 和 PromptDiffusion）相比，仅使用 4 台 RTX 3090 GPU 对 ICT 进行训练的效率更高且成本更低。

Abstract

We propose in-context translation (ICT), a general learning framework to unify visual recognition (e.g., semantic segmentation), low-level image processing (e.g., denoising), and →

in-context translation visual recognition image processing conditional image generation unification

发现论文，激发创造

走向更统一的上下文视觉理解

我们提出了一种新的具有多模态输出功能的视觉理解的上下文学习框架，通过将文本和视觉提示量化和嵌入到统一的表示空间中，并采用仅具有解码器的稀疏 Transformer 架构在其上执行生成建模。实验结果表明，我们的模型在统一的多模态管线中实现了与专门模型和先前上下文学习基准模型相竞争的性能。总体而言，我们的研究在统一多模态上下文学习方面迈出了进一步的一步。

Dec, 2023

在上下文中的学习蒸馏：转移预训练语言模型的少样本学习能力

通过 in-context learning distillation 技术，将大型已预训练的语言模型的能力转移至小型模型，同时结合语言建模目标，提高了多任务学习和少样本学习的性能，实验结果表明，多任务学习下拥有语言建模目标的 in-context learning objectives 可以取得最佳效果。

Dec, 2022

SegICL: 一个用于增强医学影像分割的通用上下文学习框架

通过 In-Context Learning (ICL) 实现的 SegICL 是一种新颖的方法，它能够在无需训练或微调的情况下，利用文本引导分割和上下文学习来应对在分布之外的数据模态和任务上的新分割任务。实验结果表明，SegICL 能够有效地利用上下文信息来处理新的分割任务，并在在分布和分布之外的任务上展示出可比较的分割性能。

Mar, 2024

多层上下文数据生成的纯文本图像标注

本文提出了一种新的多情景数据生成框架用于提高文本图像注释的训练数据，该框架使用扩散模型生成复杂和简单图像，并在 MSCOCO、Flickr30k 和 SS1M 等数据集上实现了最先进的表现。

May, 2023

点在上下文中的理解：通过上下文学习理解点云

通过引入 Point-In-Context（PIC）框架，利用 in-context learning 解决 3D 点云的任务，同时提出了增强版 PIC-S，通过动态上下文标签和额外的上下文对提高模型性能和泛化能力。

Apr, 2024

利用单张图像指导的通用图像到图像转换

提出了一种名为视觉概念转换器 (VCT) 的新型框架，通过借鉴单个参考图像来保留源图像的内容并翻译视觉概念，已证明此方法在广泛的图像转换任务中具有出色的结果。

Jul, 2023

上下文学习使得多模态大型语言模型能够对癌症病理图像进行分类

本研究评估了具有上下文学习能力的模型 Generative Pretrained Transformer 4 with Vision (GPT-4V) 在癌症图像处理中的应用，结果显示在组织亚型分类、结肠息肉亚型分类和淋巴结切片中的乳腺肿瘤检测等三项癌症组织病理学任务中，使用上下文学习可以达到或超过针对特定任务训练的神经网络的性能，且只需使用较少的样本。总结起来，本研究表明，在病理学中，基于非领域特定数据训练的大型视觉语言模型可以直接应用于解决医学图像处理任务，这使得非技术背景的医学专家在样本稀缺的领域中能够使用通用的人工智能模型。

Mar, 2024

基于统一提示引导的上下文修复框架用于基于参考图像的图像操作

本文提出了一种基于大规模 T2I 模型的 Prompt-Guided In-Context inpainting (PGIC) 框架，利用该框架可以实现参考引导的图像修复、局部超分辨率和新视角合成等任务，而且不需要对模型进行精细调整。同时，该框架利用了自注意力模块建立空间相关性来有效地解决参考引导的操作。实验表明，该框架相较于其他基于精细调整的方法，具有更好的性能表现和更少的计算成本。

May, 2023

图像中的视觉语言：上下文视觉学习的通用画家

本文提出了 Painter，这是一种通用的视觉模型，采用 “图像为中心” 的解决方案，其将核心视觉任务的输出重新定义为图像，并将任务提示指定为图像，使模型能够执行基于可见图像补丁的任务，从而比许多现有的特定任务模型表现更好。

Dec, 2022

模拟学者：具有图像扩散模型的即刻视觉环境学习

通过使用在图像修复中预训练的文本到图像扩散模型，我们提出了 Analogist 作为一种新颖的推理型视觉上下文学习方法，旨在利用视觉和文本提示技术，提高任务的泛化能力和上下文感知能力，从而在各种视觉任务中取得优越性能。

May, 2024