多模态码本在文本图像翻译中的应用

ACLMay, 2023

多模态码本在文本图像翻译中的应用

Exploring Better Text Image Translation with Multimodal Codebook

Zhibin Lan, Jiawei Yu, Xiang Li, Wen Zhang, Jian Luan...

TL;DR本文提出了多模态码本的 TIT 模型和多阶段的培训框架，充分利用 OCR 数据集和我们的 OCRMT30K 数据集训练模型，为后续研究提供便利。

Abstract

text image translation (TIT) aims to translate the source texts embedded in the image to target translations, which has a wide range of applications and thus has important research value. However, current studies on TIT are confronted with two main bottlenecks: 1) this task lacks a pub

text image translation tit dataset multimodal codebook multi-stage training framework ocrmt30k dataset

发现论文，激发创造

E2TIMT：用于文本图像机器翻译的高效有效的模态适配器

本文旨在提出一种新型的端对端的文本图像翻译模型，充分利用现有的 OCR 和 MT 数据集的知识来追求既有效又高效的框架。我们建立了一种新颖的模态适配器，有效地连接 OCR 编码器和 MT 解码器，并联合使用端到端 TIMT 损失和跨模态对比损失来对齐 OCR 和 MT 任务的特征分布。广泛的实验表明，所提出的方法比现有的两阶段级联模型和一阶段端对端模型具有更轻，更快的结构，而消融研究则验证了我们的方法的泛化性。

May, 2023

基于翻译增强的多语言文本图像生成

本文研究了多语言文本到图像生成 (mTTI) 和神经机器翻译 (NMT) 在 mTTI 系统中的潜在作用，提出了 Ensemble Adapter 方案，通过实证研究多语言文本知识的加权和整合，以此来改善 mTTI 系统的性能，并在三个标准 mTTI 数据集上进行了评估。

May, 2023

从辅助文本翻译任务中提高端到端文本图像翻译的效果

本研究提出了一种新的文本翻译增强的端到端文本图像翻译方法，采用多任务学习方式，通过将翻译作为辅助任务来训练端到端模型，利用易得的大规模文本平行语料库，取得了比现有方法更好的实验结果，证明翻译和识别辅助任务是互补的。

Oct, 2022

WIT: 基于维基百科的图像文本数据集，用于多模态多语言机器学习

本文介绍了 Wikipedia-based Image Text（WIT）数据集，该数据集是由不同语言构成的 37.6 百万个实体丰富的图像文本示例组成，可用于多模态模型的预训练，如应用于图像文本检索等下游任务。WIT 数据集有四个主要的优势，规模大、多语种、覆盖的概念和实体比以前的数据集更加多样化，并提供一个非常具有挑战性的真实世界的测试集。

Mar, 2021

基于搜索引擎图像检索的多模态神经机器翻译

本文提出使用图像搜索引擎和文本感知的注意力视觉编码器来收集并过滤具有描述性的图像，以加强神经机器翻译的性能。在多个数据集上进行的实验证明，该方法较强的基线实现了显著的性能提升。

Jul, 2022

超越三元组：利用最多数据进行多模态机器翻译

通过提出一个新的方法和新的数据集，本文致力于提高多模式机器翻译的翻译质量并解决了只能利用少量数据和当前的基准相对较为受限约束的问题，结果表明我们的方法更适合实际场景并显著提高了翻译性能。

Dec, 2022

多层上下文数据生成的纯文本图像标注

本文提出了一种新的多情景数据生成框架用于提高文本图像注释的训练数据，该框架使用扩散模型生成复杂和简单图像，并在 MSCOCO、Flickr30k 和 SS1M 等数据集上实现了最先进的表现。

May, 2023

多语言大型语言模型是否能够进行上下文中的文本到图像学习？

将大型语言模型从文本到多模态进化为多模态大型语言模型 (MLLMs)，并扩展了上下文学习 (ICL) 到多模态环境。本研究中提出以 T2I-ICL 为任务的新的 benchmark 数据集 CoBSAT，通过与六个最先进的 MLLMs 算法的对比表明了 T2I-ICL 的困难及其挑战，并探索了 fine-tuning 和 Chain-of-Thought prompting 等策略以实现显著改进。

Feb, 2024

AnyTrans：用大规模模型翻译图像中的任意文本

本文介绍了 AnyTrans，这是一个全面的框架，用于 Translate AnyText in the Image (TATI) 任务，包括多语言文本翻译和图像中的文本融合。该框架利用大规模模型（如大型语言模型和文本引导扩散模型）的优势，在翻译过程中结合了文本和视觉元素的上下文线索。我们的框架采用了 LLMs 的少样本学习能力，可以考虑到整体上下文来翻译碎片化的文本。同时，扩散模型的先进修复和编辑能力使得将翻译的文本无缝融合到原始图像中成为可能，同时保留其风格和真实感。此外，我们的框架可以完全使用开源模型构建，无需训练，易于获取和扩展。为了推动 TATI 任务的进展，我们精心编制了一个名为 MTIT6 的测试数据集，其中包含六种语言对的多语言文本图像翻译数据。

Jun, 2024

利用图像解决歧义问题：改进的多模态机器翻译和对比评估

该论文提出了一种基于机器翻译、多模态、神经适配器和引导自注意机制的新型多模态机器翻译方法，同时还发布了 CoMMuTE 数据集，并在该数据集上取得了显著的性能提升。

Dec, 2022