生成性想象提高机器翻译
本文提出使用图像搜索引擎和文本感知的注意力视觉编码器来收集并过滤具有描述性的图像,以加强神经机器翻译的性能。在多个数据集上进行的实验证明,该方法较强的基线实现了显著的性能提升。
Jul, 2022
本文研究了多模式翻译任务的两个子任务:学习翻译和学习视觉有关表征,并在多任务学习框架中通过注意力编码器 - 解码器和图像表征预测的方式实现。通过实验发现,这种方法在 Multi30K 数据集上比基准表现要好,即使在外部 MS COCO 数据集进行训练也同样有效,而在外部 News Commentary 平行文本训练翻译模型时进一步提高了性能。
May, 2017
本文提出了 iNLG,这是一种使用机器生成的图像来指导语言模型进行开放式文本生成的方法。实验和分析证明 iNLG 在打开式文本生成任务(包括文本完成、故事生成和概念到文本的生成)中的有效性,包括少量数据和全部数据情况。无论是自动计量还是人类评价,都验证了我们 iNLG 所生成的文本片段的连贯性和信息量,同时也显示出轻微的退化。
Oct, 2022
对比于其它多模式机器翻译 (MMT) 方法,我们提出了一种短语级别检索的 MMT 方法,从已有的文本 - 图像数据集中获得源输入的视觉信息,有利于缓解输入限制和数据稀疏的问题,并且通过条件变分自编码器可以更好地过滤多余的视觉信息和仅保留和短语相关的视觉信息。这个方法在多个 MMT 数据集上实验结果表明显著优于强基线模型,尤其是在文本语境有限的情况下。
Mar, 2022
本文提出了一种基于想象力的自然语言生成自动评估度量 ——ImaginE,通过与先进的文本到图像生成工具 StableDiffusion 结合,自动生成文本碎片的图像并使用情境嵌入计算想象力相似性,在多个文本生成任务实验中表现出引入多模信息到语言生成评估中的巨大潜力,并在基于参考和无参考评估方案中,提高了自动评估度量与人类相似度判断之间的相关性。
Jun, 2021
本文旨在从信息论角度提高多模式机器翻译的视觉感知能力,通过将信息量化为源特定信息和目标特定信息,并提出两种目标优化方法以更好地利用视觉信号来解决输入退化的问题。实验结果表明,我们的方法可以显著提高 MMT 模型的视觉感知能力,并在两个数据集上取得了优秀的结果。
Oct, 2022
该论文提出一种名为 LIVE 的方法,利用预训练语言模型和图像生成模型相结合,使得模型可以像人一样通过想象场景帮助写作,该方法通过融合层实现了图像和文本的结合,并使用 CLIP 来确定文本能否调起想象力,实验表明该方法的有效性。
May, 2023
本文研究了多模式机器翻译(MMT)系统在存在视觉上下文时比纯文本神经机器翻译(NMT)系统表现更好,并探讨了视觉数据集对于 MMT 模型的训练和评估的重要性,表明 MMT 架构相关的有效研究目前受到合适数据集的限制,未来的 MMT 数据集必须经过仔细考虑。
Sep, 2021
该论文提出了一种基于机器翻译、多模态、神经适配器和引导自注意机制的新型多模态机器翻译方法,同时还发布了 CoMMuTE 数据集,并在该数据集上取得了显著的性能提升。
Dec, 2022