多语言基于实例的语言学习中的经验教训

Sep, 2018

多语言基于实例的语言学习中的经验教训

Lessons learned in multilingual grounded language learning

Ákos Kádár, Desmond Elliott, Marc-Alexandre Côté, Grzegorz Chrupała, Afra Alishahi

TL;DR研究了多语言学习模型在何种条件下能够表现出更好的视觉语义嵌入，结果表明多语种训练比双语种训练有更好的效果，低资源语言受益于高资源语言的训练，注释同一组图像的多种语言获得了额外的提升。

Abstract

Recent work has shown how to learn better visual-semantic embeddings by leveraging image descriptions in more than one language. Here, we investigate in detail which conditions affect the performance of this type of grounded →

visual-semantic embeddings language learning model multilingual training low-resource languages caption-caption ranking

发现论文，激发创造

像双语婴儿一样：视觉引导双语语言模型的优势

通过使用 MS-COCO-ES 数据集中的英语和西班牙语的图像和字幕来训练 LSTM 语言模型，研究发现视觉基础能够提高语义相似性的理解能力，特别是在跨语言时，但是在抽象词汇方面没有显著优势。研究还指出，为了进一步提高视觉基础的语言模型的实用性，需要更多多语言数据和多语言说话者的感知基础。

Oct, 2022

印地语作为第二语言：利用语义相似的样本改进基于视觉的语音

本研究旨在从多语言角度探讨视觉引导语音模型（VGS）的学习。研究发现，将高资源语言的知识转化为低资源语言的知识可以提高跨模态检索任务中低资源语言的性能，对此，文章提出了两种方法：（1）使用强大的预训练高资源语言编码器和（2）使用语义相似的口语字幕。通过实验证明，这两种方法结合起来可以有效地使低资源语言的表现超越单语和双语对应物。

Mar, 2023

跨语言视觉预训练用于多模式机器翻译

本文结合视觉和语言的跨语言预训练方法，使用三重并行视觉和语言语料库进行预训练，并说明所学习的基于视觉的跨语言表示对于多模式机器翻译的性能具有领先优势。

Jan, 2021

文化与语言多样性改善视觉表达

我们的研究展示了多语言语境下数据集和模型生成的图像标题之间的显著语义差异，以及不同语言训练的模型在对应语言的测试数据上表现最佳，而在多语言内容上训练的模型在所有评估数据组合上都表现良好，这对于改善图像理解的多样化感知具有重要意义。

Oct, 2023

跨语言文化下的视觉推理

通过引入印尼语、汉语、斯瓦希里语、泰米尔语和土耳其语等语言，构建了一个新的 ImageNet-style 分层协议，从本地化的角度推荐相关概念和图像，建立了一个用于多文化及多语言视觉和语言推理的数据集 MaRVL，并列举出一系列现代模型的基线，发现其跨语言性能显著滞后于英语的监督性能。

Sep, 2021

想象力提高多模翻译

本文研究了多模式翻译任务的两个子任务：学习翻译和学习视觉有关表征，并在多任务学习框架中通过注意力编码器 - 解码器和图像表征预测的方式实现。通过实验发现，这种方法在 Multi30K 数据集上比基准表现要好，即使在外部 MS COCO 数据集进行训练也同样有效，而在外部 News Commentary 平行文本训练翻译模型时进一步提高了性能。

May, 2017

多语种多样性增强视觉 - 语言表示

使用多语言数据集进行预训练可以提高在多个视觉任务中的性能，包括对非英语数据的使用，以及增加地理多样性任务中非洲地区的表现。

May, 2024

基于多头注意力的多元化地位学习跨语言多模态表示

本文提出了一种基于视觉物体检测和不同文本语义的多语言多模态表示的模型，采用多头注意力机制对两种语言的文本语义和视觉对象进行细粒度对齐，从而学习到更好的视觉 - 语义嵌入空间，并在多个任务上展现了比其他方法更显著的性能提升。

Sep, 2019

视觉基准帮助在低数据环境中学习词义

通过对具有意义的监督的视觉数据进行训练，我们发现在具有限定语言数据的情况下，视觉监督可以提高词汇学习的效率，但这种改进是有限的，并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。

Oct, 2023

定位与语义：语言如何促进视觉表征学习？

我们通过探测的方式比较了视觉 - 语言模型和仅视觉模型的视觉表征，在广泛的任务范畴内评估学习表征的质量，发现视觉 - 语言模型更适合标签预测任务，而仅视觉模型更适合需要更多局部信息的密集预测任务，同时指出语言有利于视觉模型更好地学习语义，但不利于定位。

Dec, 2022