从辅助文本翻译任务中提高端到端文本图像翻译的效果

Oct, 2022

从辅助文本翻译任务中提高端到端文本图像翻译的效果

Improving End-to-End Text Image Translation From the Auxiliary Text Translation Task

Cong Ma, Yaping Zhang, Mei Tu, Xu Han, Linghui Wu...

TL;DR本研究提出了一种新的文本翻译增强的端到端文本图像翻译方法，采用多任务学习方式，通过将翻译作为辅助任务来训练端到端模型，利用易得的大规模文本平行语料库，取得了比现有方法更好的实验结果，证明翻译和识别辅助任务是互补的。

Abstract

end-to-end text image translation (TIT), which aims at translating the source language embedded in images to the target language, has attracted intensive attention in recent research. However, data sparsity limits the performance of →

end-to-end text image translation multi-task learning text parallel corpus text translation recognition auxiliary tasks

发现论文，激发创造

通过理解和学习辅助文本翻译任务来提高语音翻译

本文研究了在多任务学习框架下，辅助文本翻译任务对语音到文本翻译任务的影响及参数共享等解决方案，提出三种方法以提高翻译质量，实验结果表明该方法在几种语种翻译任务中相对于基线都达到了最新水平。

Jul, 2021

重思和改进端到端语音翻译的多任务学习

通过应用多任务学习，已经在端到端语音翻译中取得了显著的改进。本文研究了不同任务之间的一致性，并提出了一种改进的多任务学习方法，通过缓解长度和表征的差异来弥合模态间的差距。实验证明我们的方法达到了最先进的结果。此外，当使用额外的数据时，我们在 MuST-C 英语到西班牙语任务上以当前最先进方法所需的 20.8% 的训练时间取得了新的最先进结果。

Nov, 2023

基于翻译增强的多语言文本图像生成

本文研究了多语言文本到图像生成 (mTTI) 和神经机器翻译 (NMT) 在 mTTI 系统中的潜在作用，提出了 Ensemble Adapter 方案，通过实证研究多语言文本知识的加权和整合，以此来改善 mTTI 系统的性能，并在三个标准 mTTI 数据集上进行了评估。

May, 2023

通过利用辅助语音和文本数据来改善端到端语音翻译

本文提出了一种将文本编码器引入预训练端到端语音翻译系统的方法，该方法可以提高适应一种模态到另一种模态的能力，特别是在源语言文本数据丰富的情况下，使得语音翻译模型可以从无标签和有标签数据中学习，并且还提出了一种去噪文本编码器的方法。在 MuST-C En-De、En-Fr 和 LibriSpeech En-Fr 任务上，该系统创造了新的最新技术。

Dec, 2022

多模态码本在文本图像翻译中的应用

本文提出了多模态码本的 TIT 模型和多阶段的培训框架，充分利用 OCR 数据集和我们的 OCRMT30K 数据集训练模型，为后续研究提供便利。

May, 2023

面向端到端的图像内神经机器翻译

本文旨在研究在图像中的机器翻译任务：将包含一种语言文本的图像转化为包含另一种语言文本的图像。我们提出了一个基于神经网络的端到端模型，并证明纯像素级监督可以得到很好的初步结果。我们进行了定量和定性评估，并讨论了一些常见的失误模式。最后，我们提出了未来工作的方向。

Oct, 2020

基于深度多任务学习的双语稀缺情境神经机器翻译

本文提出了一种基于多任务学习方法，利用源端的单语言语言资源来解决神经机器翻译中由于缺少平行文本造成模型质量差的问题，并采用语义分析、句法分析和命名实体识别等辅助任务以将语义和 / 或句法知识注入到翻译模型中，实现了在英法、英波斯和英越三种翻译任务上的有效性验证。

May, 2018

通过利用图文辅助任务提升社交媒体帖子的多模态分类

利用社交媒体帖子中的多模态信息，通过引入辅助损失与主任务相结合的方式，成功解决了文本和图像信息融合中的挑战，取得了一致的改进效果，并通过详细分析揭示了辅助任务在特定场景和案例中的最有效性。

Sep, 2023

E2TIMT：用于文本图像机器翻译的高效有效的模态适配器

本文旨在提出一种新型的端对端的文本图像翻译模型，充分利用现有的 OCR 和 MT 数据集的知识来追求既有效又高效的框架。我们建立了一种新颖的模态适配器，有效地连接 OCR 编码器和 MT 解码器，并联合使用端到端 TIMT 损失和跨模态对比损失来对齐 OCR 和 MT 任务的特征分布。广泛的实验表明，所提出的方法比现有的两阶段级联模型和一阶段端对端模型具有更轻，更快的结构，而消融研究则验证了我们的方法的泛化性。

May, 2023

通过图像文本转换实现更好文本理解

本文探讨了将视觉信息与文本表示相结合的模型，通过 comprehensive ablation studies，我们提出了一种简单但表现突出的架构，相对于其他的 multimodal approaches，在若干基准测试中取得了更好的成绩。同时在使用数量级更少的数据时，也改进了与图像相关的文本数据集的最新成果。

May, 2017