基于产品的跨模态跨语言预训练机器翻译

MMAug, 2021

基于产品的跨模态跨语言预训练机器翻译

Product-oriented Machine Translation with Cross-modal Cross-lingual Pre-training

Yuqing Song, Shizhe Chen, Qin Jin, Wei Luo, Jun Xie...

TL;DR本研究构建了一个大规模的双语产品描述数据集，并设计了一个统一的产品导向跨模态跨语言模型来学习诸如对象、形状、颜色和主体风格等多方面的视觉语义，证明了我们的模型在多个产品领域中的显着优势。

Abstract

Translating e-commercial product descriptions, a.k.a product-oriented machine translation (PMT), is essential to serve e-shoppers all over the world. However, due to the domain specialty, the PMT task is more challenging than traditional →

machine translation product descriptions bilingual dataset cross-lingual model translation quality

发现论文，激发创造

超越三元组：利用最多数据进行多模态机器翻译

通过提出一个新的方法和新的数据集，本文致力于提高多模式机器翻译的翻译质量并解决了只能利用少量数据和当前的基准相对较为受限约束的问题，结果表明我们的方法更适合实际场景并显著提高了翻译性能。

Dec, 2022

基于伪可视中心词的无监督多模态神经机器翻译

本研究探讨如何利用视觉内容实现无监督多模态机器翻译领域的降歧和提升潜空间的对齐度。该模型采用多模态反向翻译，具备伪视觉枢轴功能，实现了多语言视觉 - 语义嵌入空间学习和视觉轴描述补充弱监督。实验证明该模型显著超越了最先进的方法，并能在测试时很好地进行泛化。

May, 2020

利用图像解决歧义问题：改进的多模态机器翻译和对比评估

该论文提出了一种基于机器翻译、多模态、神经适配器和引导自注意机制的新型多模态机器翻译方法，同时还发布了 CoMMuTE 数据集，并在该数据集上取得了显著的性能提升。

Dec, 2022

无监督多模态神经机器翻译

本研究提出了一种基于多模态机器翻译框架的无监督神经机器翻译方法，通过图像识别加强双向多模态翻译的学习效果，在 Multi30K 数据集上与传统基于文本的神经机器翻译相比，本方法有更好的实验结果。

Nov, 2018

机器翻译文本的多语言多模态学习

研究使用机器翻译英文多模态数据作为缺少多语言数据的高质量数据是否有效，并提出了 TD-MML 框架并在 IGLUE 基准测试中展示了它的有效性。

Oct, 2022

多模式机器翻译模型的合理性检查：关注视觉确保准确性

本文研究了多模式机器翻译（MMT）系统在存在视觉上下文时比纯文本神经机器翻译（NMT）系统表现更好，并探讨了视觉数据集对于 MMT 模型的训练和评估的重要性，表明 MMT 架构相关的有效研究目前受到合适数据集的限制，未来的 MMT 数据集必须经过仔细考虑。

Sep, 2021

为纯文本翻译模型添加多模态功能

对于目前的多模式机器翻译 (MMT) 工作来说，使用 Multi30k 数据集进行训练和评估导致模型过拟合到极高程度，从而在针对典型的纯文本测试集（如 WMT newstest 数据集）时表现非常差。为了在 Multi30k 和纯文本数据集上都表现出色，本文基于高效纯文本机器翻译 (MT) 模型作为 MMT 模型的起点，并通过使用视觉 - 文本适配器层和门控机制将 MT 模型逐步转换为 MMT 模型，通过 1) 使用基于视觉的源文本遮蔽进行预训练和 2) 在 Multi30k 上进行微调。

Mar, 2024

跨语种分类中机器翻译的再次研究

使用更强的机器翻译系统并减少原始文本训练和机器翻译文本推理之间的不匹配，翻译 - 测试可以比之前假定的效果更好，从而对跨语言分类的多语言模型的支配提出了质疑，并促使更多关注基于机器翻译的基准线。

May, 2023

3AM: 一个模糊感知的多模式机器翻译数据集

通过引入 3AM 数据集，本文提出了一种新的解决方案来改善多模态机器翻译中存在的视觉信息不足的问题，并通过提供更具含糊性和更多种类的数据集，实现了对现有多模态机器翻译数据集更好的训练效果，进一步促进了多模态学习领域的研究和探索。

Apr, 2024

LVP-M3: 多语言多模机器翻译的语言感知可视提示

本文提出了跨多种语言的多模式机器翻译 (Multilingual MMT) 任务，通过提供多语言的共享语义空间来解决为每对语言训练单独模型的高昂成本问题；通过建立两个新的多语言 MMT 基准数据集，并提出了一种基于视觉提示的有效基准模型 LVP-M3，该模型包括三个阶段（token 编码、语言感知的视觉提示生成和语言翻译），实验结果表明该方法在多语言 MMT 中的有效性。

Oct, 2022