基于理性推理的多模态迷因问答
本文介绍了一个名为 “MultiModalQA (MMQA)” 的数据集,该数据集需要通过对文本、表格和图像的联合推理来回答问题。作者还创建了一个新框架来生成复杂的多模态问题,并演示了多模态多跳方法在解决这一任务中的必要性。
Apr, 2021
利用我们提出的多模态问答(MQA)框架,将多模态信息提取(MIE)任务统一为一个统一的片段提取和多项选择问答流水线,从而提高了各种类型的现成大型多模态模型在 MIE 任务上的性能,特别是在零样本和少样本情况下,我们的框架能够使 LMM 在与 ChatGPT 和 GPT-4 等更大的语言模型竞争或超越的 10B 参数尺度上获得更好的表现,从而将 MQA 框架作为利用 LMMs 解决 MIE 和其他下游多模态任务的一般原则。
Oct, 2023
基于可编程的知识编辑,本研究提出了一种适用于多跳问题回答的框架(PokeMQA),通过解耦任务,使用分离的可训练范围探测器引导大型语言模型(LLMs)对知识增强的多跳问题进行分解,同时根据外部冲突信号调节 LLMs 的行为,从而在 MQA 的知识编辑方面表现出卓越的性能,以显著优势击败所有竞争对手,并始终产生可靠的推理过程。
Dec, 2023
最近提出的长篇问答(QA)系统,在大型语言模型(LLMs)的支持下,展示了令人期待的能力。然而,为其生成的抽象回答归因和验证可能困难,并且自动评估其准确性仍然是一个持续的挑战。在这项工作中,我们介绍了一个新的 QA 任务,通过半抽取方式总结多个多样化的来源来回答多回答问题。具体来说,半抽取多源 QA(SEMQA)要求模型输出一个综合回答,同时混合了由给定的输入来源直接拷贝的事实引用片段和将这些片段连接成一个连贯段落的非事实自由文本连接器。这个设置弥合了受基于事实抽取的 QA 系统约束的输出与更流畅但更难以归因的完全抽象回答之间的差距。特别地,它利用了语言模型的先进语言生成能力的新模式,同时通过设计产生易于验证、解释和评估的细致内联归因。为了研究这个任务,我们创建了第一个这样类型的数据集 QuoteSum,其中包含人工编写的对自然问题和生成问题的半抽取回答,并定义了基于文本的评估指标。在不同设置下尝试了几个 LLM 后,我们发现这个任务出人意料地具有挑战性,这展示了 QuoteSum 用于开发和研究这种整合能力的重要性。
Nov, 2023
通过构建大规模的带有人工注释的 PM209 数据集,本研究提出了一个多模态产品手册问答(MPMQA)任务,其要求模型处理多模态内容并提供多模态答案,并进一步提出了一种统一模型,可以同时执行这两个子任务,并实现与多个任务特定模型相当的性能。
Apr, 2023
该研究旨在评估多模态转换器是否可以执行复杂的推理来识别新概念作为先前学习的概念的否定,研究通过描述一种使用音频集中标注的音乐视频的多模态问答基准测试和一种新型数据生成程序确定了这种方法的有效性。
Jan, 2023
RoMQA 是第一个鲁棒、多证据、多答案问答基准测试,它基于 Wikidata 知识图谱的相关限制生成问题集群,并通过测量每个问题集群中的最坏性能来评估 QA 模型对各种限制的鲁棒性。与先前的 QA 数据集相比,RoMQA 具有更多需要对更多证据文本进行推理的人类编写问题,并且平均有更多正确答案。此外,人类注释员评价 RoMQA 问题更自然或更有可能被人们问到。
Oct, 2022
最近对大型语言模型 (LLMs) 和大型多模态模型 (LMMs) 的进展表明其在各种医疗应用中具有潜力,如智能医学诊断。本研究引入了综合医学专业领域的 RJUA-MedDQA 基准测试,用于全面解释各种医学报告的复杂性和专门的深入推理能力。我们设计了数据生成流程,并提出了高效的结构恢复注释 (ESRA) 方法,可显著提高注释效率并提供 26.8% 的准确率改进。通过使用 ESRA 方法生成的图像 - 文本,在 5 个能够解决中文医学问答任务的 LMMs 上进行了全面评估和少样本评估。我们对一组强大的 LLMs 进行了比较实验,发现现有的 LLMs 性能仍受限制,但与 LMMs 相比,LMMs 在低质量和多样化结构的图像上更加稳健。跨上下文和图像内容的推理具有重大挑战。希望此基准测试有助于推动多模态医学文档理解领域的研究并促进其在医疗健康领域的应用。
Feb, 2024
本文旨在将音视频问答(AVQA)扩展到多语言环境。我们利用机器翻译提出了两个多语言 AVQA 数据集,涵盖了八种语言,并引入了 MERA 框架,该框架利用了先进的视频、音频和文本基础模型来进行多语言 AVQA 的基准测试。我们相信这项工作将开辟新的研究方向,并为未来的多语言 AVQA 提供参考基准。
Jun, 2024
我们介绍了一种基于 GPT-4 生成字幕的方法,通过 fine-tune RoBERTa 作为文本编码器和 CLIP 作为图像编码器,改进了以文本和图像为基础的表意编码,取得了明显的性能提升。
Apr, 2024