无配对跨语言图像字幕生成和自监督奖励
本文提出了一种新颖的基于跨语言无配对数据的图像描述生成方法,通过跨语言的自动编码和跨媒体非监督特征映射实现从图像模态到语言模态的生成, 并在汉语图像描述生成任务上展示了其有效性。
Oct, 2020
通过 “语言中转” 方法,该研究解决了跨语言图像和自然语言生成的问题,其基本思路是利用中文语言来架设桥梁,以实现跨语言的图像生成任务。实验表明,该方法在 MSCOCO 和 Flickr30K 数据集上的效果优于基准方法。
Mar, 2018
本文提出了一种多语种图像字幕模型,通过联合特征学习将不同语言的单词映射到共同空间,其中学习了从句子上下文中分离出的语言特征和与单词相关的局部视觉特征。实验结果表明该方法在多个语言对上具有有效性。
Jun, 2019
本文探讨了跨语言自监督视觉表示学习,使用 Raw Audio-Visual Speech Encoders(RAVEn)框架对无标注的多语言数据进行预训练,然后用标记的转录 fine-tune 视觉模型,实验证明多语言模型优于单语言模型,多语言胜过英文预训练,使用相似的语言效果更好,而无标签的语言进行精调与使用目标语言在预训练集上进行竞争。
Mar, 2023
本文提供了一种使用视觉空间中的多模态支点改善图像描述的统计机器翻译方法。通过在一个用目标语言描述的图像数据库中执行图像检索,并使用最相似图像的描述进行跨语言重新排序,达到优化的效果。本方法不依赖于大量域内平行数据的可用性,而仅依赖于大量单语言字幕图像数据集的可用性,以及用于计算图像相似性的最先进的卷积神经网络。我们的实验评估显示,与强基线相比,我们的方法提高了 1 个 BLEU 分数。
Jan, 2016
本研究中,我们发现对自己的编码器输出进行挖掘,可以进一步提高多语言预训练语言模型的跨语言对齐能力;利用这一发现,我们提出了一种新方法 -- 交叉语言检索用于迭代自监督训练 (CRISS),并取得了 9 种语言方向的最新无监督机器翻译结果以及 16 种语言的 Tatoeba 句子检索任务的最高准确率的平均提升为 21.5%,同时相对于 mBART,CRISS 在监督机器翻译下游任务上平均提高了 1.8 BLEU。
Jun, 2020
本文提出引入场景图和句法树来解决跨语言图像描述中存在的不相关性和表达不流畅的问题,并介绍了一种跨语言和跨模态的后向翻译训练方法,实现图像到最终描述的完全对齐,实验结果表明该模型在提高图像描述的相关性和流畅性方面表现出很大的优势。
May, 2023
该论文介绍了一种使用跨语言预训练进行零 - shot 学习的多模式语言和视觉问题解决方法,它可以用于构建跨语言图像检索模型和改进文本嵌入聚类,并在多语言环境下进行评估。
Nov, 2020
本研究探讨了一种简单的零 - shot 跨语言对齐方法,该方法基于偏好数据训练了一个奖励模型,在摘要生成和开放式对话生成任务中,经过全面的评估表明,这种方法在不同语言间的对齐中始终是成功的,包括人工评估:跨语言对齐模型在超过 70%的评估实例中优于未对齐模型。我们还发现,不同语言的奖励模型有时比相同语言的奖励模型具有更好的对齐效果,并且在没有语言特定数据的情况下进行有监督的微调也是对齐中的另一个重要组成部分。
Apr, 2024