KEBench: 大型视觉语言模型的知识编辑基准
评估大型语言模型的知识编辑能力和知识迁移效果的新基准 Eva-KELLM,采用原始文档进行知识编辑,从多个角度评估其效果,研究发现当前使用原始文档进行知识编辑的方法在处理修改后的知识以及跨语言知识迁移时效果不佳。
Aug, 2023
多模态大型语言模型 (MLLMs) 存在非事实或过时知识问题,通过将多模态知识分解为其视觉和文本组成部分,我们提出了 MC-MKE,一个注重模态一致性的细粒度多模态知识编辑基准,评估了三种多模态知识编辑方法在 MC-MKE 上的性能,并揭示了它们在模态一致性方面的局限性。我们的工作强调了多模态知识编辑所面临的挑战,并激励进一步的研究以开发有效的技术来解决这个任务。
Jun, 2024
该研究论文提出了一种新的知识驱动图像问答(KNVQA)评估方法,以解决大型视觉 - 语言模型在现实场景中存在的物体虚构和事实准确性两个关键问题,并开发了相应的 KNVQA 数据集进行评估,从而有效评估现有方法的细粒度能力并为大型视觉 - 语言模型的进一步优化提供潜在思路。
Nov, 2023
通过多个语言中的多跳推理和单跳问题,MLaKE(多语言语言知识编辑)评估了知识编辑方法在多语言环境下的适应性,发现现有方法在英语样本上表现较好,但在多语言实验中的泛化能力有限,强调了多语言知识编辑的发展需求。
Apr, 2024
该论文探索了在大型语言模型中编辑概念性知识的能力,通过构建一个新的基准数据集 ConceptEdit 和建立一套新的度量标准来评估现有的编辑方法。实验结果表明,虽然现有的编辑方法在某种程度上能有效地修改概念级别的定义,但也有可能扭曲大型语言模型中相关的实例化知识,导致性能下降。这对于更好地理解大型语言模型的能力具有启发意义。
Mar, 2024
当前研究主要关注白盒大语言模型(LLMs)编辑,忽略了一个重要的场景:黑盒 LLMs 编辑,其中 LLMs 通过接口进行访问,仅有文本输出可用。为了解决现有评估不适用于黑盒 LLMs 编辑且不具备全面性的局限性,我们提出了一个多角度评估框架,首次加入了风格保留的评估。为了解决当前方法中的编辑数据隐私泄露和过度编辑风格的问题,我们引入了一种新的 postEdit 框架,通过下游后处理解决隐私问题,并通过细粒度编辑保持文本风格一致。两个基准实验和分析表明,postEdit 超过了所有对比基准并实现了强大的泛化性能,特别是在风格保留上获得了巨大的提升(平均提高了 20.82%)。
Feb, 2024
该研究评估了大型视觉语言模型(LVLMs)区分人工生成图像和人类生成图像的能力。通过引入一种新的自动化基准构建方法来进行评估。实验证明 LVLMs 在某种程度上能够区分图像类型,但存在向右的偏差,并且相对于人类表现出明显较差。为了深入研究这些发现,我们使用人工智能开发了一个自动化基准构建过程。该过程包括主题检索、叙事脚本生成、错误嵌入和图像生成,从而创建了一组包含有意错误的文本 - 图像对。通过构建两个可比较的基准,我们验证了我们的方法。本研究凸显了 LVLMs 在现实世界理解方面的优势和劣势,并推进了基准构建技术,提供了一种可扩展和自动化的人工智能模型评估方法。
Jun, 2024
通过我们的广泛评估,我们展示了目前最先进的方法在解决我们提出的基准测试中面临着重大挑战,凸显了多模态大型语言模型中细粒度知识编辑的复杂性,这进一步凸显了在这个领域中需要创新方法的迫切需求,为未来的研究和开发工作设定了明确的议程。
Feb, 2024
大型语言模型 (Large Language Models) 在理解和生成与人类交流非常相似的文本方面表现出非凡的能力。然而,由于其广泛的参数化,训练过程中存在重大的计算需求限制。这种挑战由于世界的动态性而进一步加剧,需要经常更新 LLM 以纠正过时的信息或整合新知识,从而确保它们持续具有相关性。近年来,对于即时修改模型的高效轻量级方法引起了越来越多的关注。本文首先定义了知识编辑问题,然后提供了对最前沿方法的全面回顾。在教育和认知研究理论的启发下,我们提出了一个统一的分类准则,将知识编辑方法分为三类:利用外部知识、将知识合并到模型中以及编辑内在知识。此外,我们引入了一个新的基准 KnowEdit,以对代表性的知识编辑方法进行综合实证评估。此外,我们对知识定位进行了深入分析,从而更深入地了解 LLM 固有的知识结构。最后,我们讨论了知识编辑的几个潜在应用,并概述了它的广泛而有影响力的意义。
Jan, 2024
该研究构建了一个名为 RaKE 的基准,专注于基于关系的知识编辑,并通过创新的评估指标和全面的实验研究,确认了关系在事实三元组中的作用,为未来的基于关系的知识编辑方法提供了实验支持。
Nov, 2023