多语言基于实例的语言学习中的经验教训
通过使用 MS-COCO-ES 数据集中的英语和西班牙语的图像和字幕来训练 LSTM 语言模型,研究发现视觉基础能够提高语义相似性的理解能力,特别是在跨语言时,但是在抽象词汇方面没有显著优势。研究还指出,为了进一步提高视觉基础的语言模型的实用性,需要更多多语言数据和多语言说话者的感知基础。
Oct, 2022
本研究旨在从多语言角度探讨视觉引导语音模型(VGS)的学习。研究发现,将高资源语言的知识转化为低资源语言的知识可以提高跨模态检索任务中低资源语言的性能,对此,文章提出了两种方法:(1)使用强大的预训练高资源语言编码器和(2)使用语义相似的口语字幕。通过实验证明,这两种方法结合起来可以有效地使低资源语言的表现超越单语和双语对应物。
Mar, 2023
本文结合视觉和语言的跨语言预训练方法,使用三重并行视觉和语言语料库进行预训练,并说明所学习的基于视觉的跨语言表示对于多模式机器翻译的性能具有领先优势。
Jan, 2021
我们的研究展示了多语言语境下数据集和模型生成的图像标题之间的显著语义差异,以及不同语言训练的模型在对应语言的测试数据上表现最佳,而在多语言内容上训练的模型在所有评估数据组合上都表现良好,这对于改善图像理解的多样化感知具有重要意义。
Oct, 2023
通过引入印尼语、汉语、斯瓦希里语、泰米尔语和土耳其语等语言,构建了一个新的 ImageNet-style 分层协议,从本地化的角度推荐相关概念和图像,建立了一个用于多文化及多语言视觉和语言推理的数据集 MaRVL,并列举出一系列现代模型的基线,发现其跨语言性能显著滞后于英语的监督性能。
Sep, 2021
本文研究了多模式翻译任务的两个子任务:学习翻译和学习视觉有关表征,并在多任务学习框架中通过注意力编码器 - 解码器和图像表征预测的方式实现。通过实验发现,这种方法在 Multi30K 数据集上比基准表现要好,即使在外部 MS COCO 数据集进行训练也同样有效,而在外部 News Commentary 平行文本训练翻译模型时进一步提高了性能。
May, 2017
本文提出了一种基于视觉物体检测和不同文本语义的多语言多模态表示的模型,采用多头注意力机制对两种语言的文本语义和视觉对象进行细粒度对齐,从而学习到更好的视觉 - 语义嵌入空间,并在多个任务上展现了比其他方法更显著的性能提升。
Sep, 2019
通过对具有意义的监督的视觉数据进行训练,我们发现在具有限定语言数据的情况下,视觉监督可以提高词汇学习的效率,但这种改进是有限的,并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。
Oct, 2023
我们通过探测的方式比较了视觉 - 语言模型和仅视觉模型的视觉表征,在广泛的任务范畴内评估学习表征的质量,发现视觉 - 语言模型更适合标签预测任务,而仅视觉模型更适合需要更多局部信息的密集预测任务,同时指出语言有利于视觉模型更好地学习语义,但不利于定位。
Dec, 2022