基于视觉信息引导的零射击释义生成

COLINGJan, 2022

基于视觉信息引导的零射击释义生成

Visual Information Guided Zero-Shot Paraphrase Generation

Zhe Lin, Xiaojun Wan

TL;DR本文提出了一种基于视觉信息的零样本释义生成模型 ViPG，它利用图像的引导作用，通过联合训练图像字幕模型和释义模型，生成具有良好相关性、流畅性和多样性的释义，表明图像作为零样本释义的一种引导方式具有潜在前景。

Abstract

zero-shot paraphrase generation has drawn much attention as the large-scale high-quality paraphrase corpus is limited. back-translation, also known as the pivot-based method, is typical to this end. Several works

zero-shot paraphrase generation back-translation visual information image-caption data paraphrasing model

发现论文，激发创造

多语言模型实现零样本改写生成

本文通过基于 Transformer 的语言模型提出了一种利用多语言平行文本自动生成同义词的简单统一模型，可以在一步中实现无监督同义词生成。该模型相较于中文中的折叠法方法，其生成的同义词更加相似，并且能够在大规模未对齐的语料库上进行预训练。同时，利用噪声自编码器机制还可以提高模型的多样性和鲁棒性。实验结果表明，该模型在同义词关系、多样性、流畅度和效率等方面均优于折叠法。

Nov, 2019

从词到句：基于视觉桥接的零资源机器翻译渐进式学习方法

本文提出了一种基于图片引导的无资源机器翻译渐进式学习方法，从词级别开始逐步学习，最终将学习到的词汇级别的翻译应用在句子级别的翻译上，从而有效减少了图片噪声对模型学习的干扰，在两个广泛使用的基于图像引导的翻译数据集上，该方法明显优于其他最先进的方法。

Jun, 2019

多模态图像描述翻译中的基准

本文提供了一种使用视觉空间中的多模态支点改善图像描述的统计机器翻译方法。通过在一个用目标语言描述的图像数据库中执行图像检索，并使用最相似图像的描述进行跨语言重新排序，达到优化的效果。本方法不依赖于大量域内平行数据的可用性，而仅依赖于大量单语言字幕图像数据集的可用性，以及用于计算图像相似性的最先进的卷积神经网络。我们的实验评估显示，与强基线相比，我们的方法提高了 1 个 BLEU 分数。

Jan, 2016

基于伪可视中心词的无监督多模态神经机器翻译

本研究探讨如何利用视觉内容实现无监督多模态机器翻译领域的降歧和提升潜空间的对齐度。该模型采用多模态反向翻译，具备伪视觉枢轴功能，实现了多语言视觉 - 语义嵌入空间学习和视觉轴描述补充弱监督。实验证明该模型显著超越了最先进的方法，并能在测试时很好地进行泛化。

May, 2020

iParaphrasing：通过图像提取基于视觉的复述句

本文提出了一种新的任务 iParaphrasing，通过提取基于视觉的复述词（VGPs）来改善语言和图像多模态任务的性能，使用各种现有方法和基于神经网络的图像注意力方法建模 VGPs 之间的相似性并报告了结果。

Jun, 2018

通过语言旋转进行非配对图像字幕生成

通过 “语言中转” 方法，该研究解决了跨语言图像和自然语言生成的问题，其基本思路是利用中文语言来架设桥梁，以实现跨语言的图像生成任务。实验表明，该方法在 MSCOCO 和 Flickr30K 数据集上的效果优于基准方法。

Mar, 2018

视觉感知下的翻译精炼

我们提出了一个翻译和完善的方法，通过使用视觉信息来提高目标语言文本上下文的使用以及恢复源语言中错误或缺失的单词，从而实现多模态机器翻译的最新成果。

Jun, 2019

视觉线索：跨越视觉和语言基础的 image 段落字幕生成

本文阐述了如何使用视觉线索（Visual Clues）桥接预训练的视觉基础模型和语言模型，无需任何额外的跨模态训练，从而可以获得图像的详细信息和语义表示，并通过定量和定性的度量评估了生成的描述的质量，结果表明该结构化语义表示方法具有有效性。

Jun, 2022

文本到图像生成中的图像引导的提示优化

将用户提供的自然语言提示自动精炼为系统偏好的关键词提示，对于文本到图像生成的用户体验至关重要。本研究提出了 Prompt Refinement with Image Pivot (PRIP) 方法，通过使用用户偏好图像的潜在表示作为用户和系统语言之间的中介，将精炼过程分解为从用户语言推断出用户偏好图像表示，然后将图像表示转化为系统语言的两个数据丰富任务，从而利用丰富的训练数据。大量实验证明 PRIP 明显优于多种基准方法，并能以零 - shot 方式有效迁移到未见过的系统。

Jun, 2024

基于搜索引擎图像检索的多模态神经机器翻译

本文提出使用图像搜索引擎和文本感知的注意力视觉编码器来收集并过滤具有描述性的图像，以加强神经机器翻译的性能。在多个数据集上进行的实验证明，该方法较强的基线实现了显著的性能提升。

Jul, 2022