从辅助文本翻译任务中提高端到端文本图像翻译的效果
本文研究了在多任务学习框架下,辅助文本翻译任务对语音到文本翻译任务的影响及参数共享等解决方案,提出三种方法以提高翻译质量,实验结果表明该方法在几种语种翻译任务中相对于基线都达到了最新水平。
Jul, 2021
通过应用多任务学习,已经在端到端语音翻译中取得了显著的改进。本文研究了不同任务之间的一致性,并提出了一种改进的多任务学习方法,通过缓解长度和表征的差异来弥合模态间的差距。实验证明我们的方法达到了最先进的结果。此外,当使用额外的数据时,我们在 MuST-C 英语到西班牙语任务上以当前最先进方法所需的 20.8% 的训练时间取得了新的最先进结果。
Nov, 2023
本文研究了多语言文本到图像生成 (mTTI) 和神经机器翻译 (NMT) 在 mTTI 系统中的潜在作用,提出了 Ensemble Adapter 方案,通过实证研究多语言文本知识的加权和整合,以此来改善 mTTI 系统的性能,并在三个标准 mTTI 数据集上进行了评估。
May, 2023
本文提出了一种将文本编码器引入预训练端到端语音翻译系统的方法,该方法可以提高适应一种模态到另一种模态的能力,特别是在源语言文本数据丰富的情况下,使得语音翻译模型可以从无标签和有标签数据中学习,并且还提出了一种去噪文本编码器的方法。在 MuST-C En-De、En-Fr 和 LibriSpeech En-Fr 任务上,该系统创造了新的最新技术。
Dec, 2022
本文旨在研究在图像中的机器翻译任务:将包含一种语言文本的图像转化为包含另一种语言文本的图像。我们提出了一个基于神经网络的端到端模型,并证明纯像素级监督可以得到很好的初步结果。我们进行了定量和定性评估,并讨论了一些常见的失误模式。最后,我们提出了未来工作的方向。
Oct, 2020
本文提出了一种基于多任务学习方法,利用源端的单语言语言资源来解决神经机器翻译中由于缺少平行文本造成模型质量差的问题,并采用语义分析、句法分析和命名实体识别等辅助任务以将语义和 / 或句法知识注入到翻译模型中,实现了在英法、英波斯和英越三种翻译任务上的有效性验证。
May, 2018
利用社交媒体帖子中的多模态信息,通过引入辅助损失与主任务相结合的方式,成功解决了文本和图像信息融合中的挑战,取得了一致的改进效果,并通过详细分析揭示了辅助任务在特定场景和案例中的最有效性。
Sep, 2023
本文旨在提出一种新型的端对端的文本图像翻译模型,充分利用现有的 OCR 和 MT 数据集的知识来追求既有效又高效的框架。我们建立了一种新颖的模态适配器,有效地连接 OCR 编码器和 MT 解码器,并联合使用端到端 TIMT 损失和跨模态对比损失来对齐 OCR 和 MT 任务的特征分布。广泛的实验表明,所提出的方法比现有的两阶段级联模型和一阶段端对端模型具有更轻,更快的结构,而消融研究则验证了我们的方法的泛化性。
May, 2023
本文探讨了将视觉信息与文本表示相结合的模型,通过 comprehensive ablation studies,我们提出了一种简单但表现突出的架构,相对于其他的 multimodal approaches,在若干基准测试中取得了更好的成绩。同时在使用数量级更少的数据时,也改进了与图像相关的文本数据集的最新成果。
May, 2017