生成性想象提高机器翻译

Sep, 2020

Generative Imagination Elevates Machine Translation

Quanyu Long, Mingxuan Wang, Lei Li

TL;DR本文提出一种基于视觉想象的神经机器翻译方法 ImagiT，仅需要源语言句子即可生成目标翻译，并证明该方法较传统文本翻译方法表现更好，揭示想象过程在修复缺失信息时的重要性。

Abstract

There are common semantics shared across text and images. Given a sentence in a source language, whether depicting the visual scene helps translation into a target language? Existing multimodal neural machine translation methods (MNMT) require triplets of bilingual sentence - image for

multimodal neural machine translation visual representation imagit visual imagination degradation strategy

发现论文，激发创造

基于搜索引擎图像检索的多模态神经机器翻译

本文提出使用图像搜索引擎和文本感知的注意力视觉编码器来收集并过滤具有描述性的图像，以加强神经机器翻译的性能。在多个数据集上进行的实验证明，该方法较强的基线实现了显著的性能提升。

Jul, 2022

想象力提高多模翻译

本文研究了多模式翻译任务的两个子任务：学习翻译和学习视觉有关表征，并在多任务学习框架中通过注意力编码器 - 解码器和图像表征预测的方式实现。通过实验发现，这种方法在 Multi30K 数据集上比基准表现要好，即使在外部 MS COCO 数据集进行训练也同样有效，而在外部 News Commentary 平行文本训练翻译模型时进一步提高了性能。

May, 2017

想象先行：引导式开放式文本生成

本文提出了 iNLG，这是一种使用机器生成的图像来指导语言模型进行开放式文本生成的方法。实验和分析证明 iNLG 在打开式文本生成任务（包括文本完成、故事生成和概念到文本的生成）中的有效性，包括少量数据和全部数据情况。无论是自动计量还是人类评价，都验证了我们 iNLG 所生成的文本片段的连贯性和信息量，同时也显示出轻微的退化。

Oct, 2022

基于短语级通用视觉表征的神经机器翻译

对比于其它多模式机器翻译 (MMT) 方法，我们提出了一种短语级别检索的 MMT 方法，从已有的文本 - 图像数据集中获得源输入的视觉信息，有利于缓解输入限制和数据稀疏的问题，并且通过条件变分自编码器可以更好地过滤多余的视觉信息和仅保留和短语相关的视觉信息。这个方法在多个 MMT 数据集上实验结果表明显著优于强基线模型，尤其是在文本语境有限的情况下。

Mar, 2022

ImaginE：一种基于想象力的自动自然语言生成评估指标

本文提出了一种基于想象力的自然语言生成自动评估度量 ——ImaginE，通过与先进的文本到图像生成工具 StableDiffusion 结合，自动生成文本碎片的图像并使用情境嵌入计算想象力相似性，在多个文本生成任务实验中表现出引入多模信息到语言生成评估中的巨大潜力，并在基于参考和无参考评估方案中，提高了自动评估度量与人类相似度判断之间的相关性。

Jun, 2021

从信息论的角度增强多模态神经机器翻译的视觉意识

本文旨在从信息论角度提高多模式机器翻译的视觉感知能力，通过将信息量化为源特定信息和目标特定信息，并提出两种目标优化方法以更好地利用视觉信号来解决输入退化的问题。实验结果表明，我们的方法可以显著提高 MMT 模型的视觉感知能力，并在两个数据集上取得了优秀的结果。

Oct, 2022

学习想象力：视觉增强的自然语言生成

该论文提出一种名为 LIVE 的方法，利用预训练语言模型和图像生成模型相结合，使得模型可以像人一样通过想象场景帮助写作，该方法通过融合层实现了图像和文本的结合，并使用 CLIP 来确定文本能否调起想象力，实验表明该方法的有效性。

May, 2023

多模式机器翻译模型的合理性检查：关注视觉确保准确性

本文研究了多模式机器翻译（MMT）系统在存在视觉上下文时比纯文本神经机器翻译（NMT）系统表现更好，并探讨了视觉数据集对于 MMT 模型的训练和评估的重要性，表明 MMT 架构相关的有效研究目前受到合适数据集的限制，未来的 MMT 数据集必须经过仔细考虑。

Sep, 2021

利用图像解决歧义问题：改进的多模态机器翻译和对比评估

该论文提出了一种基于机器翻译、多模态、神经适配器和引导自注意机制的新型多模态机器翻译方法，同时还发布了 CoMMuTE 数据集，并在该数据集上取得了显著的性能提升。

Dec, 2022

通过丰富视觉特征和视觉驱动的词向量提升多模态神经机器翻译

本文探讨了在多模态神经机器翻译 (MNMT) 中使用密集标注模型进行视觉特征提取和词嵌入，以提高图像描述翻译模型的效果。

Jul, 2017