E2TIMT：用于文本图像机器翻译的高效有效的模态适配器

May, 2023

E2TIMT：用于文本图像机器翻译的高效有效的模态适配器

E2TIMT: Efficient and Effective Modal Adapter for Text Image Machine Translation

Cong Ma, Yaping Zhang, Mei Tu, Yang Zhao, Yu Zhou...

TL;DR本文旨在提出一种新型的端对端的文本图像翻译模型，充分利用现有的 OCR 和 MT 数据集的知识来追求既有效又高效的框架。我们建立了一种新颖的模态适配器，有效地连接 OCR 编码器和 MT 解码器，并联合使用端到端 TIMT 损失和跨模态对比损失来对齐 OCR 和 MT 任务的特征分布。广泛的实验表明，所提出的方法比现有的两阶段级联模型和一阶段端对端模型具有更轻，更快的结构，而消融研究则验证了我们的方法的泛化性。

Abstract

text image machine translation (TIMT) aims to translate texts embedded in images from one source language to another target language. Existing methods, both two-stage cascade and one-stage end-to-end architectures, suffer from different issues. The cascade models can benefit from the l

text image machine translation ocr mt datasets end-to-end models modal adapter

发现论文，激发创造

多模态码本在文本图像翻译中的应用

本文提出了多模态码本的 TIT 模型和多阶段的培训框架，充分利用 OCR 数据集和我们的 OCRMT30K 数据集训练模型，为后续研究提供便利。

May, 2023

基于翻译增强的多语言文本图像生成

本文研究了多语言文本到图像生成 (mTTI) 和神经机器翻译 (NMT) 在 mTTI 系统中的潜在作用，提出了 Ensemble Adapter 方案，通过实证研究多语言文本知识的加权和整合，以此来改善 mTTI 系统的性能，并在三个标准 mTTI 数据集上进行了评估。

May, 2023

TIME: 文本和图像互译对抗网络

提出了基于生成对抗网络框架的文本到图像生成模型 Text and Image Mutual-Translation Adversarial Networks (TIME)，不需要额外模块或预训练，而是联合训练生成器 G 和图像字幕鉴别器 D。使用 Transformer 模型对图像特征和单词嵌入之间的跨模态链接进行建模，在条件 hinge loss 的动态平衡下实现了对抗学习。在 CUB 和 MS-COCO 数据集上均取得了最先进的性能，并在 MS-COCO 的图像字幕和下游视觉语言任务上展示了良好的性能。

May, 2020

文本图像机器翻译的多教师知识蒸馏

本文提出一种基于多教师知识蒸馏 (MTKD) 的文本图像机器翻译 (TIMT) 方法，将管道模型的知识有效地转移至端到端 TIMT 模型中，包括图像编码器、序列编码器和解码器的知识引导优化，并采用令牌和句子级别知识蒸馏相结合来提高翻译性能。实验结果表明，相比于现有的管道和端到端模型，MTKD 可以更有效地改进文本图像翻译性能，具有更少的参数和更少的解码时间。

May, 2023

超越三元组：利用最多数据进行多模态机器翻译

通过提出一个新的方法和新的数据集，本文致力于提高多模式机器翻译的翻译质量并解决了只能利用少量数据和当前的基准相对较为受限约束的问题，结果表明我们的方法更适合实际场景并显著提高了翻译性能。

Dec, 2022

利用图像解决歧义问题：改进的多模态机器翻译和对比评估

该论文提出了一种基于机器翻译、多模态、神经适配器和引导自注意机制的新型多模态机器翻译方法，同时还发布了 CoMMuTE 数据集，并在该数据集上取得了显著的性能提升。

Dec, 2022

TMT: 通过将不同形式阐述视为不同语言的三模式语音、图像和文本之间的翻译

我们提出了一种新颖的 Tri-Modal Translation（TMT）模型，它能够在语音、图像和文本之间进行任意模态的翻译，并通过将语音和图像数据标记为离散标记来统一界面并显著降低计算成本。通过在 TMT 中使用多模态编码器 - 解码器进行核心翻译，同时仅在标记化和解标记化阶段进行模态特定的处理，我们评估了所提出的 TMT 在六个模态翻译任务上的性能，并且 TMT 始终优于单模型对应物，表明统一任务不仅在实用性上有益，而且在性能上也有益。

Feb, 2024

从辅助文本翻译任务中提高端到端文本图像翻译的效果

本研究提出了一种新的文本翻译增强的端到端文本图像翻译方法，采用多任务学习方式，通过将翻译作为辅助任务来训练端到端模型，利用易得的大规模文本平行语料库，取得了比现有方法更好的实验结果，证明翻译和识别辅助任务是互补的。

Oct, 2022

为纯文本翻译模型添加多模态功能

对于目前的多模式机器翻译 (MMT) 工作来说，使用 Multi30k 数据集进行训练和评估导致模型过拟合到极高程度，从而在针对典型的纯文本测试集（如 WMT newstest 数据集）时表现非常差。为了在 Multi30k 和纯文本数据集上都表现出色，本文基于高效纯文本机器翻译 (MT) 模型作为 MMT 模型的起点，并通过使用视觉 - 文本适配器层和门控机制将 MT 模型逐步转换为 MMT 模型，通过 1) 使用基于视觉的源文本遮蔽进行预训练和 2) 在 Multi30k 上进行微调。

Mar, 2024

面向端到端的图像内神经机器翻译

本文旨在研究在图像中的机器翻译任务：将包含一种语言文本的图像转化为包含另一种语言文本的图像。我们提出了一个基于神经网络的端到端模型，并证明纯像素级监督可以得到很好的初步结果。我们进行了定量和定性评估，并讨论了一些常见的失误模式。最后，我们提出了未来工作的方向。

Oct, 2020