跨语言视觉问答
该研究探讨了跨语言视觉问答的许多方面,包括输入数据、微调和评估方法,研究了不同多语言多模态变压器下不同问题类型的交互。该研究还针对训练数据和模型进行了广泛的分析,旨在进一步了解为什么在某些问题类型和语言中仍存在零 - shot 效果差距,从而指导多语言 VQA 的进一步发展。
Feb, 2022
本研究探讨了多语言视觉语言模型在跨语言环境中表现欠佳的情况,并提出了三种策略以提高它们在零 - shot 跨语言视觉问答任务中的性能。实验证明,该 Fine-tuning 策略取得了一致的效果。
Sep, 2022
本文提出了可伸缩的解决方案,涉及多语言视觉问答(mVQA)的数据生成和建模,最终在 13 种语言中展现出强大性能,同时也创造了 MaXM(一个在 7 种不同语言下的纯测试数据集),从而使得 mVQA 不仅限于英语,而是扩展到其他语言中。
Sep, 2022
该研究提出了一个名为 MLQA 的多语言提取式问答(QA)评估基准,旨在推动跨语言 QA 研究。 MLQA 包含 7 种语言的 QA 实例,并使用一种新颖的对齐上下文策略,基于 Wikipedia 文章构建,以此作为现有提取式 QA 数据集的跨语言扩展。
Oct, 2019
本论文提出了一种基于广义跨语言转移的框架,可以增强模型理解不同语言的能力,通过不同语言组成多语言知识三元组,并通过链接预测技术设计一种知识注入策略,从而深入挖掘丰富的语义知识;实验结果表明,该方法可以大幅提高性能。
Apr, 2023
使用单一生成模型在大规模上生成多语言问题和答案对,通过多任务训练的生成模型来改进跨语言 QA 模型的零 - shot 表现,并在各种语言的 XQuAD 数据集上实现了较大的性能提升。
Oct, 2020
本研究提出了一种方法来改善跨语言问答的表现,利用问答生成模型以跨语言的方式生成合成数据,无需额外标注数据,并展示了在四个多语言数据集上的表现显著优于仅使用英文数据的基线模型,创造了新的最优性能水平。
Oct, 2020
构建了 CVQA,一个新的多元文化多语言视觉问答基准,覆盖了 28 个国家的文化驱动图像和问题,包括 26 种语言和 11 种文字,共提供了 9k 个问题。针对 CVQA 对几种多模态大型语言模型进行了基准测试,显示出该数据集对当前最先进的模型具有挑战性。这一基准测试可以作为评估多模态模型的文化能力和偏见的探测套件,并希望鼓励更多研究努力来增加该领域中的文化意识和语言多样性。
Jun, 2024
本文提出了一个基于越南图片的多语言视觉问答基准数据集 EVJVQA,用于评估多语言 VQA 系统或模型,并详细介绍了 9th Workshop on Vietnamese Language and Speech Processing (VLSP 2022) 的组织、方法和结果,其中前两个团队使用 ViT 预训练模型和 mT5 预训练语言模型实现多语言 QA 系统。
Feb, 2023
本文探索了提高多语言问题回答的交叉语言转移性能的策略,包括使用机器翻译生成的数据来增强原始英语训练数据,以及提出两种新颖的策略:语言对抗性训练和语言仲裁框架,这些策略显著提高了零资源的交叉语言转移性能,并导致 LM 嵌入不那么语言特定的结果。经验证明,这些模型在最近推出的 multilingual MLQA 和 TyDiQA 数据集上优于以前的零 - shot 基线。
Dec, 2020