比较基于模板和基于自由模型的语言模型探测

ACLJan, 2024

比较基于模板和基于自由模型的语言模型探测

Comparing Template-based and Template-free Language Model Probing

Sagi Shaier, Kevin Bennett, Lawrence E Hunter, Katharina von der Wense

TL;DR通过比较专家制定的模板和自然发生的文本对填空任务语言模型进行探测的差异，我们评估了 16 种不同的模型在 10 个针对英语数据集的探测中，其中 4 个基于模板，6 个基于无模板，以回答以下研究问题：（RQ1）两种方法之间的模型排名是否不同？（RQ2）两种方法之间的模型得分是否不同？（RQ3）在一般和领域特定模型之间，RQ1 和 RQ2 的答案是否不同？我们的发现是：1）除了顶级领域特定模型外，无模板和基于模板的方法通常会对模型进行不同的排名。2）在比较并行的无模板和基于模板提示时，准确率下降了最多 42%。3）在无模板方法中，困惑度与准确性呈负相关，但引人注目的是，对于基于模板的探测，它们呈正相关。4）在基于模板的探测中，模型倾向于经常对不同提示进行相同的答案预测，而在使用无模板技术时这种情况较少见。

Abstract

The differences between cloze-task language model (LM) probing with 1) expert-made templates and 2) naturally-occurring text have often been overlooked. Here, we evaluate 16 different LMs on 10 →

cloze-task language model probing template-based template-free model rankings

发现论文，激发创造

重构 - 探索法：一种对预训练语言模型进行生物医学知识探测的对比性方法

本研究采用对比探针法，探究生物医学领域基于 UMLS 词汇库的预训练语言模型的知识转移机制，并提出了 MedLAMA 作为基准来测试多种最先进的语言模型和探测方法，其中 Contrastive-Probe 方法的性能表现优于其他方法，为此领域更合适的探针技术的发展提供了启示。

Oct, 2021

解剖近义句：预训练语言模型中提示句法和补充信息对知识检索的影响

预训练语言模型可以通过闭式样式提示来推断关系性知识，使用统一的元模板设计的 CONPARE-LAMA 探针表明句子结构在知识检索性能方面具有多种可取的特性，并且领域信息相对于语法形式更可靠地提升知识检索性能。

Apr, 2024

基于位置的提示方式用于健康结果生成

本研究提出了一种基于位置 - 注意机制的方法，避免了构造多种不同的提示模板。使用生物医学预训练语言模型，实验结果显示我们的方法能更好地填补掩码，对罕见提示模板的回答（如后缀和混合模式）更为有效。

Mar, 2022

通过提示探测

本文提出了一种无模型的探测方法 —— 提示探测法，通过在 5 个探测任务上的实验表明，这种方法在提取信息方面与诊断探针相当或更好，并且可以自我学习得更少。此外，结合关注头修剪与提示探测法，分析模型在其架构中存储语言信息的位置，并通过删除对特定语言属性至关重要的头部来评估预训练的有用性。

Jul, 2022

提示作为探究：利用语言模型进行知识库构建

本文提出了一种名为 ProP 的方法，它利用 GPT-3 这个大型语言模型进行知识库构建任务，结合多种提示技巧，结果表明手动提示的重要性、变长回答集的有效用处以及实体别名字典的效用等，从而获得了较高的预测质量。

Aug, 2022

针对基于提示的生物医学知识探究的预训练语言模型的上下文差异评估

本文提出了一种新的上下文变量提示和理解 - 困惑 - 误解 (UCM) 度量，以改善 PLMs 在生物医学知识三元组上的性能，并提出新颖的 “误解” 概念来评估不同 PLMs 学习的知识，实验表明这可以使 BioLAMA 对大型 N-M 关系和稀有关系更友好。

Nov, 2022

事实探究是什么：学习 vs 学习回想

本文主要介绍了使用 cloze-style prompts 和 OptiPrompt 等方式，旨在通过预训练语言模型来检索世界事实，并使用 fact prediction 等方式来确定模型预测准确性，并考虑这些 probing 结果是否被解释为下界，而不是固化自己的 prompt 方法从训练数据中获得的信息。

Apr, 2021

语言模型能成为医学知识库吗？

通过创建生物医学知识三元组的基准测试 BioLAMA，研究了预训练语言模型是否可用作具有生物医学特定领域知识的知识库。发现在近期提出的探测方法下，生物医学语言模型可以在检索生物医学知识方面取得 18.51% 的精确度，但多数预测与无主题的提示模板高度相关，因此限制了它们作为特定领域知识库的能力。

Sep, 2021

预训练语言模型是否可疑？从因果视角理解隐形风险

本文探讨了基于问题提示的探测方法可能存在的偏见、不一致性和不可靠性，强调了通过因果干预来消除偏差的必要性，并提出了更好的数据集设计、探测框架和更可靠的预训练语言模型评估标准。

Mar, 2022

TempLM: 将语言模型提炼为基于模板的生成器

TempLM 是一种将预训练语言模型转化为基于模板生成器的方法，能够提供预训练模型的流畅性和模板系统的保真性，实验证明其在数据到文本转化方面比原始模型更具可靠性，也比以前的模板系统更流畅。

May, 2022