Jun, 2024

AnyTrans:用大规模模型翻译图像中的任意文本

TL;DR本文介绍了 AnyTrans,这是一个全面的框架,用于 Translate AnyText in the Image (TATI) 任务,包括多语言文本翻译和图像中的文本融合。该框架利用大规模模型(如大型语言模型和文本引导扩散模型)的优势,在翻译过程中结合了文本和视觉元素的上下文线索。我们的框架采用了 LLMs 的少样本学习能力,可以考虑到整体上下文来翻译碎片化的文本。同时,扩散模型的先进修复和编辑能力使得将翻译的文本无缝融合到原始图像中成为可能,同时保留其风格和真实感。此外,我们的框架可以完全使用开源模型构建,无需训练,易于获取和扩展。为了推动 TATI 任务的进展,我们精心编制了一个名为 MTIT6 的测试数据集,其中包含六种语言对的多语言文本图像翻译数据。