面向多语言音视频问答

Jun, 2024

Towards Multilingual Audio-Visual Question Answering

Orchid Chetia Phukan, Priyabrata Mallick, Swarup Ranjan Behera, Aalekhya Satya Narayani, Arun Balaji Buduru...

TL;DR本文旨在将音视频问答（AVQA）扩展到多语言环境。我们利用机器翻译提出了两个多语言 AVQA 数据集，涵盖了八种语言，并引入了 MERA 框架，该框架利用了先进的视频、音频和文本基础模型来进行多语言 AVQA 的基准测试。我们相信这项工作将开辟新的研究方向，并为未来的多语言 AVQA 提供参考基准。

Abstract

In this paper, we work towards extending audio-visual question answering (AVQA) to multilingual settings. Existing AVQA research has predominantly revolved around English and replicating it for addressing AVQA in

audio-visual question answering multilingual settings machine translation multilingual avqa datasets mera framework

发现论文，激发创造

MaXM：面向多语言视觉问答的模型

本文提出了可伸缩的解决方案，涉及多语言视觉问答（mVQA）的数据生成和建模，最终在 13 种语言中展现出强大性能，同时也创造了 MaXM（一个在 7 种不同语言下的纯测试数据集），从而使得 mVQA 不仅限于英语，而是扩展到其他语言中。

Sep, 2022

在动态音视频场景中学习回答问题

本文研究了 Audio-Visual Question Answering（AVQA）任务，提出了一个包含超过 45K 个问题 - 答案对的 MUSIC-AVQA 数据集并使用多模态知识和视听场景的时空推理来解决该问题，结果表明我们的方法优于现有的 A-V 和 AVQA 方法。

Mar, 2022

CVQA：跨文化多语言视觉问答基准

构建了 CVQA，一个新的多元文化多语言视觉问答基准，覆盖了 28 个国家的文化驱动图像和问题，包括 26 种语言和 11 种文字，共提供了 9k 个问题。针对 CVQA 对几种多模态大型语言模型进行了基准测试，显示出该数据集对当前最先进的模型具有挑战性。这一基准测试可以作为评估多模态模型的文化能力和偏见的探测套件，并希望鼓励更多研究努力来增加该领域中的文化意识和语言多样性。

Jun, 2024

听、看、回答：克服音频视觉问题回答中的偏差

音频 - 视觉问答（AVQA）是一个复杂的多模态推理任务，要求智能系统基于音频 - 视频输入对准确地回答自然语言查询。然而，现有的 AVQA 方法容易过度学习数据集偏差，导致鲁棒性差。我们提出了一个新的数据集（MUSIC-AVQA-R），并提出了一个鲁棒的架构，通过多方位的循环协作去偏策略来克服偏差学习问题。结果表明，该架构在两个数据集上均取得了最先进的性能，特别是在我们提出的数据集上提升了 9.68％。通过对我们的数据集进行评估，还突显了现有的多模态 QA 方法的有限鲁棒性。

Apr, 2024

跨语言视觉问答

本文提出了 xGQA，一个用于跨语言视觉问答任务的新的多语言评估基准，并使用适配器方法将多模型变换器模型扩展为多语言模型，结果表明简单的跨语言模型转移会导致多语言多模态失配，需要更复杂的方法来进行跨语言视觉和多语言语言建模

Sep, 2021

VLSP2022-EVJVQA 挑战：多语言视觉问答

本文提出了一个基于越南图片的多语言视觉问答基准数据集 EVJVQA，用于评估多语言 VQA 系统或模型，并详细介绍了 9th Workshop on Vietnamese Language and Speech Processing (VLSP 2022) 的组织、方法和结果，其中前两个团队使用 ViT 预训练模型和 mT5 预训练语言模型实现多语言 QA 系统。

Feb, 2023

跨语言视觉问答深入探究

该研究探讨了跨语言视觉问答的许多方面，包括输入数据、微调和评估方法，研究了不同多语言多模态变压器下不同问题类型的交互。该研究还针对训练数据和模型进行了广泛的分析，旨在进一步了解为什么在某些问题类型和语言中仍存在零 - shot 效果差距，从而指导多语言 VQA 的进一步发展。

Feb, 2022

MLQA：评估跨语言抽取式问答

该研究提出了一个名为 MLQA 的多语言提取式问答（QA）评估基准，旨在推动跨语言 QA 研究。 MLQA 包含 7 种语言的 QA 实例，并使用一种新颖的对齐上下文策略，基于 Wikipedia 文章构建，以此作为现有提取式 QA 数据集的跨语言扩展。

Oct, 2019

AQUALLM：利用大型语言模型生成音频问答数据

这篇研究论文介绍了一种基于大型语言模型的可伸缩的 AQA 数据生成流程 (AQUALLM 框架)，利用现有的音频描述注释并结合最先进的语言模型生成了丰富、高质量的 AQA 数据集，同时提供了三个广泛和高质量的 AQA 基准数据集，该框架和数据集推动了 AQA 研究的进展，并且所训练的模型在性能上优于现有的最先进模型，而且相比人工注释的训练数据，本数据集上训练的模型表现出更强的泛化能力。

Dec, 2023

学习回答多语言和混合代码问题

本论文聚焦于在多语言环境下推进处理末端用户问题的 QA 技术，涉及多语性和混编等问题并提出了一种多文档利用的多跳问题生成技术，实验证明该方法可在 MQA、VQA 和语言生成等多个领域和语言中达到最先进的表现，是通用的，可用于提高 QA 系统性能。

Nov, 2022