Cross2StrA: 无配对跨语言图像字幕生成与跨语言跨模态结构中心对齐

May, 2023

Cross2StrA: 无配对跨语言图像字幕生成与跨语言跨模态结构中心对齐

Cross2StrA: Unpaired Cross-lingual Image Captioning with Cross-lingual Cross-modal Structure-pivoted Alignment

Shengqiong Wu, Hao Fei, Wei Ji, Tat-Seng Chua

TL;DR本文提出引入场景图和句法树来解决跨语言图像描述中存在的不相关性和表达不流畅的问题，并介绍了一种跨语言和跨模态的后向翻译训练方法，实现图像到最终描述的完全对齐，实验结果表明该模型在提高图像描述的相关性和流畅性方面表现出很大的优势。

Abstract

Unpaired cross-lingual image captioning has long suffered from irrelevancy and disfluency issues, due to the inconsistencies of the semantic scene and syntax attributes during transfer. In this work, we propose to address the above problems by incorporating the scene graph (SG) structu

cross-lingual image captioning semantic structure-guided syntactic structure-guided cross-modal back-translation

发现论文，激发创造

UNISON: 无配对跨语言图像字幕

本文提出了一种新颖的基于跨语言无配对数据的图像描述生成方法，通过跨语言的自动编码和跨媒体非监督特征映射实现从图像模态到语言模态的生成，并在汉语图像描述生成任务上展示了其有效性。

Oct, 2020

无配对跨语言图像字幕生成和自监督奖励

本文介绍一种利用增强学习的自监督奖励和多级视觉语义匹配模型来生成跨语言图像描述的方法，在英语和汉语两种语言测试中分别取得了显著的性能提升。

Aug, 2019

通过语言旋转进行非配对图像字幕生成

通过 “语言中转” 方法，该研究解决了跨语言图像和自然语言生成的问题，其基本思路是利用中文语言来架设桥梁，以实现跨语言的图像生成任务。实验表明，该方法在 MSCOCO 和 Flickr30K 数据集上的效果优于基准方法。

Mar, 2018

语言结构作为视觉场景图生成的弱监督

本文研究了在场景图生成中如何利用语言结构以及图像标题，通过弱化的监督模式提高模型性能，相比起传统的三元组监督模式，更具伸缩性且更适用于多模态数据。

May, 2021

多模态图像描述翻译中的基准

本文提供了一种使用视觉空间中的多模态支点改善图像描述的统计机器翻译方法。通过在一个用目标语言描述的图像数据库中执行图像检索，并使用最相似图像的描述进行跨语言重新排序，达到优化的效果。本方法不依赖于大量域内平行数据的可用性，而仅依赖于大量单语言字幕图像数据集的可用性，以及用于计算图像相似性的最先进的卷积神经网络。我们的实验评估显示，与强基线相比，我们的方法提高了 1 个 BLEU 分数。

Jan, 2016

通过场景图对齐进行非配对图片描述

本研究提出了一种基于场景图的方法来进行非配对图像描述，用于生成不需要图像 - 文字配对的结果，显著超过现有方法的表现。

Mar, 2019

使用中间稳定化技术进行跨模态语言生成，以实现网络规模的语言覆盖

研究问题是如何解决数据饥渴模型与缺乏非英语注释的问题，提出了一种名为 PLuGS 的方法，该方法直接利用英语注释（gold data）及其机器翻译版本（silver data）进行训练，从而在运行时生成目标语言字幕。该方法在使用 Open Images 数据集中的图像进行大领域测试时，在 5 种不同的目标语言中表现优异。此外，研究者还发现了一个有趣的现象：PLuGS 模型生成的英文字幕比原始的单语英文模型生成的副标题更好。

May, 2020

Structure-CLIP: 使用结构信息增强多模态语言表示

本文介绍一种结构感知的视觉 - 语言预训练模型 ——Structure-CLIP，它利用场景图实现对细粒度语义信息的关注，结合结构知识来提高多模态语言表示的表示能力，并在不同的下游任务中得到了最先进的表现。

May, 2023

基于区域注意力和场景分解的图像字幕定位与描述对齐

本文提出了一种使用平行结构、利用图像和句子之间的相似性及上下文信息生成图像描述的方法，将视觉感知与文本描述相结合，使用场景特定的上下文信息对句子中的词语生成进行调整，在多个流行数据集上的实验表明本方法在生成精准、丰富的图像描述方面表现优异。

Jun, 2015

场景图作为枢轴：基于视觉场景虚构的推理时无图像非监督多模式机器翻译

本研究旨在探讨一种更现实的无监督多模态机器翻译（UMMT）设定 —— 推理时无图片的 UMMT，在该模型中，模型使用源文本图像对进行训练，并且仅使用源文本输入进行测试。为实现推理时的纯文本输入，本文设计了一种视觉场景幻觉机制，用于动态生成伪视觉场景图像。通过无监督方法学习场景图像，本文提出了几个基于场景图象旋转的学习目标。在 Multi30K 数据的基准测试中，我们的 SG 方法在任务和设定上显著优于最佳基准线，帮助生成更完整，相关和流畅性的翻译，而不依赖成对图像。进一步的深入分析揭示了我们的模型如何在任务设置中取得进展。

May, 2023