揭开大型视觉语言模型的一致性之纱
该论文提出了一种概念一致性测量方法,通过从知识库中提取背景知识并尝试预测模型对锚定查询的响应,来测量 LLM 对相关概念的理解程度。研究表明,目前的 LLM 在常识推理方面存在显著差异,并能够向构建具有理解力的人工智能迈进一步。
Sep, 2022
研究中提出了 ConsisEval 基准,用于量化大型语言模型的一致性,并通过相对一致性得分分析改进一致性的潜力。综合实验结果表明,尽管 GPT-4 的一致性得分最高,但仍然对特定问题存在不一致性,这可能是由于多余信息干扰、对问题的错误解读等因素导致的。而能力更强的模型通常具有更高的一致性,但也存在例外情况,并且硬数据能够提高微调和上下文学习的一致性。
Jun, 2024
通过 LLM-Human-in-the-Loop 流程和 CURE 基准,我们评估了现有的 VLMs,并发现即使是表现最佳的模型也无法展示出强大的视觉推理能力和一致性,表明需要大量努力使 VLMs 能够像人类一样系统而一致地进行视觉推理。作为初步步骤,我们提出了一个两阶段训练框架,旨在提高 VLMs 的推理性能和一致性。第一阶段涉及使用由 LLMs 自动生成的逐步推理样本对 VLMs 进行监督微调。在第二阶段,我们进一步通过结合 LLMs 提供的反馈来增强训练过程,以产生高度一致和可靠的推理链。我们在推理性能和一致性方面经验上突出了我们框架的有效性。
Sep, 2023
在含糊的整数序列填充任务中,我们在 OpenAI 模型套件上进行了一系列行为实验,发现平均一致性介于 67%和 82%之间,远高于模型一致性随机的预测,并随着模型能力的提高而增加。此外,我们发现模型在自我一致性上具有不良标定性,并且通常倾向于在潜在的答案中分配显著的权重。
Oct, 2023
本文介绍了一种新的框架,用于探究和提升视觉语言模型的关系、组合和上下文理解。我们提出了一个基准数据集来检测内容理解的三个方面。我们实验了 5 种流行的模型,并发现它们大多数难以展示出概念理解。然而,我们发现交叉注意力可以帮助学习概念理解,并提出了一种新的微调技术,以奖励我们提出的三个概念理解措施。我们希望这些基准测试可以帮助社区评估和改进大型视觉语言模型的概念理解能力。
Apr, 2023
该研究评估了大型视觉语言模型(LVLMs)区分人工生成图像和人类生成图像的能力。通过引入一种新的自动化基准构建方法来进行评估。实验证明 LVLMs 在某种程度上能够区分图像类型,但存在向右的偏差,并且相对于人类表现出明显较差。为了深入研究这些发现,我们使用人工智能开发了一个自动化基准构建过程。该过程包括主题检索、叙事脚本生成、错误嵌入和图像生成,从而创建了一组包含有意错误的文本 - 图像对。通过构建两个可比较的基准,我们验证了我们的方法。本研究凸显了 LVLMs 在现实世界理解方面的优势和劣势,并推进了基准构建技术,提供了一种可扩展和自动化的人工智能模型评估方法。
Jun, 2024
我们介绍了 LVLM 的自一致能力和新颖的自一致调整范式 (SC-Tune),证明了 SC-Tune 显著提升了目标级别视觉语言基准的性能,并在图像级视觉语言基准上保持了竞争力或改进的性能。
Mar, 2024
大型语言模型在学术、研究、商业和金融等领域被广泛应用于文本生成、摘要和翻译等任务,然而,这些模型往往会产生不正确和误导性的信息,主要原因是一致性和推理能力的不足,因此本研究旨在评估和比较公开和专有的大型语言模型的一致性和推理能力,并发现专有模型在一致性和推理能力方面通常优于公开模型,但即使面对基本的常识问题,没有一个模型在一致性和推理能力上都达到 90% 的得分。
Apr, 2024
在人工智能的领域中,大型语言模型(LLMs)需求渐趋增长。本研究通过命题竞辩框架来探讨多个 LLMs 之间的持续性以及一致性问题,确立了公正比赛,失调比赛和圆桌比赛的三个阶段,并在多个常识推理数据集上进行了广泛的实验,从而提出了令人信服的解决方案
May, 2023