Apr, 2024

In-Context Translation: 走向图像识别、处理和生成的统一化

TL;DR我们提出了一种称为 In-Context Translation (ICT) 的通用学习框架,用于统一视觉识别、图像处理和条件图像生成。ICT 通过统一减少了特定任务模型设计所带来的内在归纳偏差,并最大程度地增强了相似任务之间的相互促进。在实验中,ICT 统一了十个视觉任务,并在各自的基准测试中展示了令人印象深刻的性能。与其竞争对手(例如 Painter 和 PromptDiffusion)相比,仅使用 4 台 RTX 3090 GPU 对 ICT 进行训练的效率更高且成本更低。