无配对跨语言图像字幕生成和自监督奖励

MMAug, 2019

无配对跨语言图像字幕生成和自监督奖励

Unpaired Cross-lingual Image Caption Generation with Self-Supervised Rewards

Yuqing Song, Shizhe Chen, Yida Zhao, Qin Jin

TL;DR本文介绍一种利用增强学习的自监督奖励和多级视觉语义匹配模型来生成跨语言图像描述的方法，在英语和汉语两种语言测试中分别取得了显著的性能提升。

Abstract

Generating image descriptions in different languages is essential to satisfy users worldwide. However, it is prohibitively expensive to collect large-scale paired image-caption dataset for every target language which is critical for training descent image captioning models. Previous works tackle the unpaired →

cross-lingual image captioning self-supervised rewards reinforcement learning visual semantic matching unpaired image-caption dataset

发现论文，激发创造

UNISON: 无配对跨语言图像字幕

本文提出了一种新颖的基于跨语言无配对数据的图像描述生成方法，通过跨语言的自动编码和跨媒体非监督特征映射实现从图像模态到语言模态的生成，并在汉语图像描述生成任务上展示了其有效性。

Oct, 2020

流畅引导下的跨语言图像字幕生成

本研究旨在建立一种跨语言图像描述模型，使用机器翻译的句子进行训练并通过流利度引导的学习框架提高生成的中文标题的流畅性和相关性，取得了显著成效。

Aug, 2017

通过语言旋转进行非配对图像字幕生成

通过 “语言中转” 方法，该研究解决了跨语言图像和自然语言生成的问题，其基本思路是利用中文语言来架设桥梁，以实现跨语言的图像生成任务。实验表明，该方法在 MSCOCO 和 Flickr30K 数据集上的效果优于基准方法。

Mar, 2018

来自单语多模数据的无监督双语词典归纳

本文提出了一种多语种图像字幕模型，通过联合特征学习将不同语言的单词映射到共同空间，其中学习了从句子上下文中分离出的语言特征和与单词相关的局部视觉特征。实验结果表明该方法在多个语言对上具有有效性。

Jun, 2019

跨语言视觉言语表征学习

本文探讨了跨语言自监督视觉表示学习，使用 Raw Audio-Visual Speech Encoders（RAVEn）框架对无标注的多语言数据进行预训练，然后用标记的转录 fine-tune 视觉模型，实验证明多语言模型优于单语言模型，多语言胜过英文预训练，使用相似的语言效果更好，而无标签的语言进行精调与使用目标语言在预训练集上进行竞争。

Mar, 2023

多模态图像描述翻译中的基准

本文提供了一种使用视觉空间中的多模态支点改善图像描述的统计机器翻译方法。通过在一个用目标语言描述的图像数据库中执行图像检索，并使用最相似图像的描述进行跨语言重新排序，达到优化的效果。本方法不依赖于大量域内平行数据的可用性，而仅依赖于大量单语言字幕图像数据集的可用性，以及用于计算图像相似性的最先进的卷积神经网络。我们的实验评估显示，与强基线相比，我们的方法提高了 1 个 BLEU 分数。

Jan, 2016

迭代自监督训练的跨语言检索

本研究中，我们发现对自己的编码器输出进行挖掘，可以进一步提高多语言预训练语言模型的跨语言对齐能力；利用这一发现，我们提出了一种新方法 -- 交叉语言检索用于迭代自监督训练 (CRISS)，并取得了 9 种语言方向的最新无监督机器翻译结果以及 16 种语言的 Tatoeba 句子检索任务的最高准确率的平均提升为 21.5%，同时相对于 mBART，CRISS 在监督机器翻译下游任务上平均提高了 1.8 BLEU。

Jun, 2020

Cross2StrA: 无配对跨语言图像字幕生成与跨语言跨模态结构中心对齐

本文提出引入场景图和句法树来解决跨语言图像描述中存在的不相关性和表达不流畅的问题，并介绍了一种跨语言和跨模态的后向翻译训练方法，实现图像到最终描述的完全对齐，实验结果表明该模型在提高图像描述的相关性和流畅性方面表现出很大的优势。

May, 2023

零样本跨语言图像检索

该论文介绍了一种使用跨语言预训练进行零 - shot 学习的多模式语言和视觉问题解决方法，它可以用于构建跨语言图像检索模型和改进文本嵌入聚类，并在多语言环境下进行评估。

Nov, 2020

重用奖励：零 - shot 跨语对齐的奖励模型转移

本研究探讨了一种简单的零 - shot 跨语言对齐方法，该方法基于偏好数据训练了一个奖励模型，在摘要生成和开放式对话生成任务中，经过全面的评估表明，这种方法在不同语言间的对齐中始终是成功的，包括人工评估：跨语言对齐模型在超过 70％的评估实例中优于未对齐模型。我们还发现，不同语言的奖励模型有时比相同语言的奖励模型具有更好的对齐效果，并且在没有语言特定数据的情况下进行有监督的微调也是对齐中的另一个重要组成部分。

Apr, 2024