AnyTrans：用大规模模型翻译图像中的任意文本

Jun, 2024

AnyTrans：用大规模模型翻译图像中的任意文本

AnyTrans: Translate AnyText in the Image with Large Scale Models

Zhipeng Qian, Pei Zhang, Baosong Yang, Kai Fan, Yiwei Ma...

TL;DR本文介绍了 AnyTrans，这是一个全面的框架，用于 Translate AnyText in the Image (TATI) 任务，包括多语言文本翻译和图像中的文本融合。该框架利用大规模模型（如大型语言模型和文本引导扩散模型）的优势，在翻译过程中结合了文本和视觉元素的上下文线索。我们的框架采用了 LLMs 的少样本学习能力，可以考虑到整体上下文来翻译碎片化的文本。同时，扩散模型的先进修复和编辑能力使得将翻译的文本无缝融合到原始图像中成为可能，同时保留其风格和真实感。此外，我们的框架可以完全使用开源模型构建，无需训练，易于获取和扩展。为了推动 TATI 任务的进展，我们精心编制了一个名为 MTIT6 的测试数据集，其中包含六种语言对的多语言文本图像翻译数据。

Abstract

This paper introduces anytrans, an all-encompassing framework for the task-translate anytext in the image (tati), which includes multiling

anytrans translate anytext in the image tati large language models text-guided diffusion models

发现论文，激发创造

AnyText: 多语言视觉文本生成与编辑

基于扩散模型的多语言视觉文本生成的 AnyText 模型，利用 OCR 模型和扩散管道生成准确和连贯的文本，通过文本控制扩散损失和文本感知损失进行训练来进一步增强书写准确性，并在评估实验证明我们的方法在视觉文本生成方面表现优异。

Nov, 2023

基于翻译增强的多语言文本图像生成

本文研究了多语言文本到图像生成 (mTTI) 和神经机器翻译 (NMT) 在 mTTI 系统中的潜在作用，提出了 Ensemble Adapter 方案，通过实证研究多语言文本知识的加权和整合，以此来改善 mTTI 系统的性能，并在三个标准 mTTI 数据集上进行了评估。

May, 2023

从辅助文本翻译任务中提高端到端文本图像翻译的效果

本研究提出了一种新的文本翻译增强的端到端文本图像翻译方法，采用多任务学习方式，通过将翻译作为辅助任务来训练端到端模型，利用易得的大规模文本平行语料库，取得了比现有方法更好的实验结果，证明翻译和识别辅助任务是互补的。

Oct, 2022

多模态码本在文本图像翻译中的应用

本文提出了多模态码本的 TIT 模型和多阶段的培训框架，充分利用 OCR 数据集和我们的 OCRMT30K 数据集训练模型，为后续研究提供便利。

May, 2023

AltDiffusion: 多语言文本到图像扩散模型

AltDiffusion 是一种新颖的多语种 T2I 扩散模型，它支持 18 种不同语言，并且在生成高质量图像方面优于现有的 T2I 模型，尤其是在理解文化特定概念方面。

Aug, 2023

便携式操控：文图生成中多功能文字操控艺术作品创作

我们提出了 AnyControl，这是一个支持多种不同控制信号任意组合的多控制图像合成框架，它使用了多模态的嵌入来引导生成过程，实现了对用户输入的整体理解，并通过广泛的定量和定性评估展示了高质量、忠实的生成结果。

Jun, 2024

Mini-DALLE3：通过激励大型语言模型实现交互式文本到图像

人工智能内容生成的革命已经通过快速发展的文本到图像（T2I）扩散模型得到了加速。本研究中，我们通过与最新发布的 DALLE3 集成的 T2I 模型 ChatGPT 重新审视现有的 T2I 系统，并引入新的任务 —— 交互式文本到图像（iT2I），人们可以与 LLM（语言模型）进行交互，以生成、编辑、精炼高质量图片，并通过自然语言进行问题回答。通过引入提示技术和现成的 T2I 模型，我们提出了一种简单的方法来增强 LLMs 在 iT2I 上的能力。我们在不同的 LLMs（如 ChatGPT、LLAMA、Baichuan 和 InternLM）下在多种常见场景中评估了我们的方法，证明我们的方法可以方便、低成本地为任何现有 LLMs 和任何文本到图像模型引入 iT2I 功能，同时对 LLMs 在问题回答和代码生成等方面的固有能力造成很小的降低。我们希望本研究能够引起更多关注，并为提升人机交互的用户体验和下一代 T2I 系统的图像质量提供灵感。

Oct, 2023

RenAIssance: 大型模型时代的 AI 文字到图像生成调查

文本到图像生成使用神经网络和扩展模型规模的创新模型架构与预测增强技术相结合的方法，提供了几种不同的方法并对其进行了详细比较和评价，为未来的工作提供了改进的可能路径。

Sep, 2023

Translatotron-V (ison): 图像内机器翻译的端到端模型

Translatotron-V (ision) 是一个端到端的图像机器翻译模型，通过四个模块实现，其中包括图像编码器、图像解码器、目标文本解码器和图像分词器，并采用两阶段训练框架以提高模型对多模态和多语言的对齐能力，同时引入结构化 BLEU 作为评估生成图像翻译质量的指标。实验证明，该模型在与级联模型参数仅占 70.9% 的情况下取得了有竞争力的性能，并且显著优于像素级端到端的图像机器翻译模型。

Jul, 2024

IMaT: 迭代匹配与翻译实现无监督文本属性转移

本论文主要介绍了一种称为 Iterative Matching and Translation (IMaT) 的方法，用于在保留语义内容的同时，自动重写句子以具备某些语言属性。该方法通过构建伪并行语料库来对齐语义相似的原始和目标语料库中的子集，然后应用标准的序列到序列模型来学习属性转移，并通过优化对齐中的不完美部分来迭代改善所学的转移函数。在情感修改和形式转移任务中，该方法表现优异。同时，作者提供了一个公开可用的测试集作为辅助贡献。

Jan, 2019