BEAR: 评估因果和屏蔽语言模型中关系知识的统一框架
大型语言模型 (LLMs) 面临处理事实知识的问题,本研究通过知识探测框架 BELIEF (-ICL),从多个角度评估编码器型和解码器型大型语言模型对事实知识的理解能力,并利用多样的提示数据集 MyriadLAMA 进行可靠的评估,揭示了大型语言模型在学习事实方面的关键因素和基于提示的知识探测的局限性。
Jun, 2024
本文使用七种预训练语言模型,运用七种篇章探测任务,将研究重点从句子级别上升到文档级别上,最终发现 BART 是捕获篇章信息能力最好的模型,但只有其编码器部分表现最佳,BERT 作为基准模型也出奇地表现良好,并且不同层次的模型对篇章信息的刻画效果,以及模型之间的差距巨大。
Apr, 2021
本文研究了在大型预训练语言模型中注入实际知识的问题,并使用遮蔽语言建模目标训练 adapter 模块来评估该方法的成功性,证明该技术是有效的,将额外增加不到 2.1% 的参数到原始模型中即可提高在 LAMA 探针子集上的性能。
Oct, 2022
我们提出了一种使用相对较小的语言模型从文本中提取关系嵌入的方法,这种方法可以在关系相似性方面取得出色的结果,并且在关键词和模型性能方面显著优于其他基于提示的语言模型。
Sep, 2023
本研究采用对比探针法,探究生物医学领域基于 UMLS 词汇库的预训练语言模型的知识转移机制,并提出了 MedLAMA 作为基准来测试多种最先进的语言模型和探测方法,其中 Contrastive-Probe 方法的性能表现优于其他方法,为此领域更合适的探针技术的发展提供了启示。
Oct, 2021
COAT utilizes large language models to extract potential causal factors from unstructured data and assists in uncovering underlying causal systems.
Feb, 2024
本文提出了 CALM 实验框架并使用梯度基于对抗攻击的方法对语言模型的内部表示进行破坏性实验,以评估其在执行特定任务时使用每个表示的能力。在对 BERT 等 LM 执行对应关系提示任务的案例研究中,发现 LM 在执行每个任务时所利用的表示高度交织在一起,但可以在它们最常被利用的任务方面进行有意义的解释。
Mar, 2023
通过衡量语言模型上下文嵌入中恢复标记树的程度,我们提出使用考察探测来对语言模型进行排序,从而确定适合特定语言的最佳模型选择。在 46 种不同类型和结构的语言模型 - 语言对中,我们的探测方法预测最佳语言模型选择的准确率为 79%,比训练完整解析器需要更少的计算量。在本研究中,我们发现 RemBERT 是一个最近提出的解耦合语言模型,它显著包含较少的固有依赖信息,但通常在完全微调后可以产生最佳的解析器结果。在排除这个异常值后,我们的方法在 89%的情况下确定最佳的语言模型选择。
Jun, 2022
大型语言模型在形式化语言任务中取得了显著的成功,但目前的基准主要遵循 LLM 的预训练数据分布。本文探讨了 LLM 在一种特殊情况下的结构语义理解能力问题,提出了 ConvRe 基准,通过多项选择问答任务评估 LLM 确定关系和相关文本匹配的能力。实验结果表明,LLM 在该基准上仍存在挑战。
Oct, 2023
本文提出一种基于英文与中文标注数据的新型评估基准,旨在测试预训练语言模型在语法、语义、知识、推理和计算等多个方面的能力,并提供满足充分性和紧凑性的标注标记级别的理由,以及人性化的实例扰动,从而使用照常理性度量:诚实度的角度。实验结果表明,预训练语言模型在知识和计算方面表现非常糟糕;尤其是在理由较短的情况下,其所有维度上的可信度都远远不足够,并且在语法感知数据上评估的预训练语言模型不稳健。
Jul, 2022