跨语言视觉问答深入探究
本文提出了 xGQA,一个用于跨语言视觉问答任务的新的多语言评估基准,并使用适配器方法将多模型变换器模型扩展为多语言模型,结果表明简单的跨语言模型转移会导致多语言多模态失配,需要更复杂的方法来进行跨语言视觉和多语言语言建模
Sep, 2021
本研究探讨了多语言视觉语言模型在跨语言环境中表现欠佳的情况,并提出了三种策略以提高它们在零 - shot 跨语言视觉问答任务中的性能。实验证明,该 Fine-tuning 策略取得了一致的效果。
Sep, 2022
本文提出了可伸缩的解决方案,涉及多语言视觉问答(mVQA)的数据生成和建模,最终在 13 种语言中展现出强大性能,同时也创造了 MaXM(一个在 7 种不同语言下的纯测试数据集),从而使得 mVQA 不仅限于英语,而是扩展到其他语言中。
Sep, 2022
通过调查 Visual Question Answering(视觉问题回答)领域的复杂性,本研究提供了对 VQA 数据集和方法的详细分类,展示了该领域的最新趋势、挑战和改进方向,并将 VQA 推广到多模态问答,探索与 VQA 相关的任务,并提出了一系列未来研究的开放性问题。
Nov, 2023
构建了 CVQA,一个新的多元文化多语言视觉问答基准,覆盖了 28 个国家的文化驱动图像和问题,包括 26 种语言和 11 种文字,共提供了 9k 个问题。针对 CVQA 对几种多模态大型语言模型进行了基准测试,显示出该数据集对当前最先进的模型具有挑战性。这一基准测试可以作为评估多模态模型的文化能力和偏见的探测套件,并希望鼓励更多研究努力来增加该领域中的文化意识和语言多样性。
Jun, 2024
本文提出了一个基于越南图片的多语言视觉问答基准数据集 EVJVQA,用于评估多语言 VQA 系统或模型,并详细介绍了 9th Workshop on Vietnamese Language and Speech Processing (VLSP 2022) 的组织、方法和结果,其中前两个团队使用 ViT 预训练模型和 mT5 预训练语言模型实现多语言 QA 系统。
Feb, 2023
本文探索了提高多语言问题回答的交叉语言转移性能的策略,包括使用机器翻译生成的数据来增强原始英语训练数据,以及提出两种新颖的策略:语言对抗性训练和语言仲裁框架,这些策略显著提高了零资源的交叉语言转移性能,并导致 LM 嵌入不那么语言特定的结果。经验证明,这些模型在最近推出的 multilingual MLQA 和 TyDiQA 数据集上优于以前的零 - shot 基线。
Dec, 2020
本文研究了视觉语言模型的零样本跨语言迁移。我们专注于多语言文本到视频搜索,并提出了一种基于 Transformer 模型的方法来学习上下文相关的多语言多模态嵌入。在零样本设置下,我们在用非英语句子查询多语言文本 - 视频模型时发现性能显著下降。为了解决这个问题,我们引入了多语言多模态预训练策略,并收集了一个新的多语言教学视频数据集(MultiHowTo100M)进行预训练。在 VTT 上的实验表明,我们的方法显著提高了非英语语言的视频搜索效果,而无需额外的注释。此外,当有多语言注释时,我们的方法在 VTT 和 VATEX 上的多语言文本到视频搜索以及 Multi30K 上的多语言文本到图像搜索方面大幅优于最近的基准线。
Mar, 2021
建立一个可靠的跨语言视觉问答系统是一个具有挑战性的问题,主要原因是在训练过程中缺乏丰富的样本。为了解决这一问题,最近的研究采用了机器翻译系统进行跨语言视觉问答任务。然而,我们的分析发现翻译文本具有独特的特征,与人工编写的文本不同,被称为翻译人工痕迹。我们发现这些痕迹可以对模型产生显著影响,通过在不同的模型、语言和翻译过程上进行广泛实验证实了这一点。鉴于此,我们提出了一种简单的数据增强策略,可以缓解翻译人工痕迹的不利影响。
Jun, 2024
该研究提出了一个名为 MLQA 的多语言提取式问答(QA)评估基准,旨在推动跨语言 QA 研究。 MLQA 包含 7 种语言的 QA 实例,并使用一种新颖的对齐上下文策略,基于 Wikipedia 文章构建,以此作为现有提取式 QA 数据集的跨语言扩展。
Oct, 2019