利用大型语言模型改进自动 VQA 评估
近期,大型多模态模型在视觉任务中表现出前所未有的精确性,尤其对于帮助盲人或视障人士提供准确答案至关重要,而模型的校准和不确定性量化对于有选择性地回答问题或请求澄清非常重要。我们对在上下文学习的多模态模型上进行 VQA 校准方法和度量的深入分析,研究了两个回答能力基准测试中的 VQA,结果显示,对于上下文学习来说,视觉模型的可能性得分比其纯文本模型更为校准,尽管基于采样的方法通常更优,但没有明确的赢家。我们提出了 Avg BLEU,这是一种结合了两种模式的采样和可能性方法优点的校准评分。
Jun, 2024
通过提出创新的评估方法并修正现有的视觉问答基准,我们的研究旨在推进我们对文本生成视觉语言模型能力的理解,提出了一种基于著名视觉分类数据集的新型视觉问答基准,可以对文本生成视觉语言模型进行细粒度评估,并与辨别性视觉语言模型进行比较。我们建议利用标签空间的语义层次结构为细粒度分类任务中的粗略答案提出自动生成的后续问题,以改善评估模型预测的传统自然语言处理和基于语言模型的度量标准。我们进行了人工评估研究,基于这项研究,我们决定采用最终的度量标准。我们将我们的基准应用于一套视觉语言模型,并详细比较了它们在对象、行为和属性分类方面的能力。我们的研究为更精确、有意义的评估奠定基础,促进了视觉语言建模领域的有针对性进展。
Feb, 2024
该研究论文提出了一种新的知识驱动图像问答(KNVQA)评估方法,以解决大型视觉 - 语言模型在现实场景中存在的物体虚构和事实准确性两个关键问题,并开发了相应的 KNVQA 数据集进行评估,从而有效评估现有方法的细粒度能力并为大型视觉 - 语言模型的进一步优化提供潜在思路。
Nov, 2023
研究大规模多模态数据上预训练的 Vision-and-Language (V&L) 模型在视觉问答 (VQA) 任务中存在代表训练数据的样本分布偏移所造成的 OOD 性能问题,而模型学习的是解决基准测试而不是高层次的技能。本文通过考虑在不同设置下 (如分类和开放性文本生成) 两种预训练的 V&L 模型性能的全面评估,证明生成模型在大多数情况下对数据分布变化不太敏感,并在测试基准中表现更好。另外,我们发现多模态预训练可以提高大多数设置下的 OOD 性能。最后,本文重新审视了自动 VQA 评估度量的假设,并从经验上证明它们的严格性会反复惩罚模型的正确响应。
May, 2022
通过人工评估,我们发现使用 InstructGPT 在 NQ-open 取得了新的最优结果,且所有模型的真实性能均被显著低估,同时超过 50%的词汇匹配失败归因于意义相当的答案, 正则匹配排名与人类判断一致
May, 2023
本研究针对认知智能领域中的 Open Question Answering 任务进行评估,提出了 QA Evaluation 任务和相应的数据集,在考虑到自动评估方法的局限性的基础上,采用人工评估来更准确地衡量基于人工智能的答案的准确性和 F1 分数,并研究表现高度相关且更可靠的评估方法以及当前方法的缺陷,最终生成的数据集有望促进更有效的自动评估工具的发展。
May, 2023
本文研究基于属性的 LLM 发展,在开发 Attributed LLMs 的第一步骤中提出可重复的 Attributed QA 评估框架并评估多种结构。实验结果探讨了如何度量归属(attribution)以及现有方法在归属方面的表现如何,并提出了建立带归属特性的 LLMs 的可能方向。
Dec, 2022
通过对 24 种模型的 11 个评估标准进行综合评估,本文首先回顾了当前的评估方法 —— 多项选择题回答(MCQA),并突出了 MCQA 的一些潜在缺点,接着引入了 RWQ-Elo 评分系统,通过 24 种大型语言模型的竞争性对战,模拟现实世界的使用情景,最后分析了系统特点、与先前排行榜的对比,揭示了 RWQ-Elo 系统的稳定性、注册新模型的可行性和其重塑 LLM 排行榜的潜力。
Mar, 2024