流畅引导下的跨语言图像字幕生成
本文提出了一种新颖的基于跨语言无配对数据的图像描述生成方法,通过跨语言的自动编码和跨媒体非监督特征映射实现从图像模态到语言模态的生成, 并在汉语图像描述生成任务上展示了其有效性。
Oct, 2020
本文提出了一种多语种图像字幕模型,通过联合特征学习将不同语言的单词映射到共同空间,其中学习了从句子上下文中分离出的语言特征和与单词相关的局部视觉特征。实验结果表明该方法在多个语言对上具有有效性。
Jun, 2019
本论文探讨采用跨语言预训练的零样本方法来学习多模态表示,提出建立跨语言图像检索模型的简单实用方法,并引入了一种新的目标函数来测试多语言 MSCOCO2014 字幕测试数据集(XTD10)的零样本模型性能,证明跨语言模型可用于零样本的下游任务, 如多语言图像标记。
Sep, 2021
该论文介绍了一种使用跨语言预训练进行零 - shot 学习的多模式语言和视觉问题解决方法,它可以用于构建跨语言图像检索模型和改进文本嵌入聚类,并在多语言环境下进行评估。
Nov, 2020
本文提出一种新的参数高效的跨语言转移学习框架,利用基于翻译的对齐方法来缓解多语言差异,并探索参数高效的微调方法,经过广泛的实验表明,我们的框架显著减少了语言之间的多语言差异,并在跨语言转移方面取得了改进,尤其在低资源场景中,同时只保留和微调极少量的参数与全模型相比(例如,我们的框架对于每种语言只需要全模型的 0.16% 的额外参数,在 few-shot 学习场景下)。
May, 2023
通过神经机器翻译和神经图像描述相结合的方法,在多语言图像描述任务中使用序列生成模型作为研究方法,我们发现相较于只针对单个语言的模型,使用多语言训练的模型在英语和德语对齐的 IAPR-TC12 数据集上的 BLEU4 和 Meteor 分数显著且实质性地提高了。
Oct, 2015
本文提出了一个通用的多模态模型融合框架,以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合,以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。
Oct, 2020
通过 “语言中转” 方法,该研究解决了跨语言图像和自然语言生成的问题,其基本思路是利用中文语言来架设桥梁,以实现跨语言的图像生成任务。实验表明,该方法在 MSCOCO 和 Flickr30K 数据集上的效果优于基准方法。
Mar, 2018