本文通过基于 Transformer 的语言模型提出了一种利用多语言平行文本自动生成同义词的简单统一模型,可以在一步中实现无监督同义词生成。该模型相较于中文中的折叠法方法,其生成的同义词更加相似,并且能够在大规模未对齐的语料库上进行预训练。同时,利用噪声自编码器机制还可以提高模型的多样性和鲁棒性。实验结果表明,该模型在同义词关系、多样性、流畅度和效率等方面均优于折叠法。
Nov, 2019
本文提出了一种基于图片引导的无资源机器翻译渐进式学习方法,从词级别开始逐步学习,最终将学习到的词汇级别的翻译应用在句子级别的翻译上,从而有效减少了图片噪声对模型学习的干扰,在两个广泛使用的基于图像引导的翻译数据集上,该方法明显优于其他最先进的方法。
Jun, 2019
本文提供了一种使用视觉空间中的多模态支点改善图像描述的统计机器翻译方法。通过在一个用目标语言描述的图像数据库中执行图像检索,并使用最相似图像的描述进行跨语言重新排序,达到优化的效果。本方法不依赖于大量域内平行数据的可用性,而仅依赖于大量单语言字幕图像数据集的可用性,以及用于计算图像相似性的最先进的卷积神经网络。我们的实验评估显示,与强基线相比,我们的方法提高了 1 个 BLEU 分数。
Jan, 2016
本研究探讨如何利用视觉内容实现无监督多模态机器翻译领域的降歧和提升潜空间的对齐度。该模型采用多模态反向翻译,具备伪视觉枢轴功能,实现了多语言视觉 - 语义嵌入空间学习和视觉轴描述补充弱监督。实验证明该模型显著超越了最先进的方法,并能在测试时很好地进行泛化。
May, 2020
本文提出了一种新的任务 iParaphrasing,通过提取基于视觉的复述词(VGPs)来改善语言和图像多模态任务的性能,使用各种现有方法和基于神经网络的图像注意力方法建模 VGPs 之间的相似性并报告了结果。
Jun, 2018
通过 “语言中转” 方法,该研究解决了跨语言图像和自然语言生成的问题,其基本思路是利用中文语言来架设桥梁,以实现跨语言的图像生成任务。实验表明,该方法在 MSCOCO 和 Flickr30K 数据集上的效果优于基准方法。
Mar, 2018
我们提出了一个翻译和完善的方法,通过使用视觉信息来提高目标语言文本上下文的使用以及恢复源语言中错误或缺失的单词,从而实现多模态机器翻译的最新成果。
本文阐述了如何使用视觉线索(Visual Clues)桥接预训练的视觉基础模型和语言模型,无需任何额外的跨模态训练,从而可以获得图像的详细信息和语义表示,并通过定量和定性的度量评估了生成的描述的质量,结果表明该结构化语义表示方法具有有效性。
Jun, 2022
将用户提供的自然语言提示自动精炼为系统偏好的关键词提示,对于文本到图像生成的用户体验至关重要。本研究提出了 Prompt Refinement with Image Pivot (PRIP) 方法,通过使用用户偏好图像的潜在表示作为用户和系统语言之间的中介,将精炼过程分解为从用户语言推断出用户偏好图像表示,然后将图像表示转化为系统语言的两个数据丰富任务,从而利用丰富的训练数据。大量实验证明 PRIP 明显优于多种基准方法,并能以零 - shot 方式有效迁移到未见过的系统。
Jun, 2024
本文提出使用图像搜索引擎和文本感知的注意力视觉编码器来收集并过滤具有描述性的图像,以加强神经机器翻译的性能。在多个数据集上进行的实验证明,该方法较强的基线实现了显著的性能提升。
Jul, 2022