本文旨在探讨预训练语言模型(PTLMs)是否具备数值常识知识,并介绍了一个诊断数据集 NumerSense 用于评估 PTLMs 的性能,结果表明:(1)BERT 和 RoBERTa 表现不佳(2)通过有监督学习可以有所提升(3)最佳的监督模型仍然表现不及人类表现。
May, 2020
本文发现预训练语言模型内部已经拥有反驳谣言的所需知识,只需要激发其反驳能力,通过 fine-tuning 可以在少量示例(例如 256 个)的情况下区分虚假前提问题,并生成合理的反驳解释。
Jul, 2023
本文提出基于传统预训练方法的修改方法,以期纠正自动构建样本时可能带来的误伤学习,增强了预训练过程对于真实负样本的学习,实验结果显示该方法可以提高预训练语言模型的性能并增强其健壮性。
Dec, 2022
本研究探讨了预训练语言模型在捕捉篇章关系上的能力,并通过探究任务验证了不同架构和层数的 PLMs 的表现,得出了对于不同 NMT 任务在何种情况下使用不同层的 PLMs 是最好的决策。
May, 2023
本文提出了一种简单轻量级的方法 CaliNet,用于校准预训练语言模型(PLMs)中所保存的事实性知识,试图解决当前存储知识的准确性问题, 这一方法通过知识探测任务的实验表明其效率及有效性,并且经过微调后, 其校准后的 PLM 具有良好的知识泛化能力,并且我们还进一步研究了知识校准机制。
Oct, 2022
本研究探讨了大型语言模型在处理负常识知识时的能力,通过设计了一系列的受限关键词句子生成任务和布尔问答任务,发现大型语言模型在生成句子方面存在信仰冲突现象,即难以生成基于负常识的句子,但能够正确回答极性的是或否问题。我们的进一步分析表明,语言模型预训练中的统计和否定偏见报告是这种冲突的原因。
对预训练语言模型进行事实知识探测的方法和数据集进行了调研,并提出了一种基于输入、输出和被探测模型适应性的事实探测方法分类方案,综合分析了语言模型中的知识保留和提示优化问题,讨论了采用语言模型作为知识库的障碍和未来研究方向。
Oct, 2023
本文介绍为了解决语言模型 (LMs) 无法满足的逻辑否定性质 (property) 所采用的方法。研究者提出一种名为 Meaning-Matching 的新的任务,用于直接帮助 LM 学习词汇语义信息,进而满足逻辑否定性质 (property)。在七个 GLUE 任务上的微调实验证明了该方法的有效性。
May, 2022
本文主要介绍了使用 cloze-style prompts 和 OptiPrompt 等方式,旨在通过预训练语言模型来检索世界事实,并使用 fact prediction 等方式来确定模型预测准确性,并考虑这些 probing 结果是否被解释为下界,而不是固化自己的 prompt 方法从训练数据中获得的信息。
Apr, 2021
为了解决语言模型生成错误陈述的问题,本研究提出一种新策略:开发具有引用能力的语言模型,可以指向支持其输出的训练数据部分。讨论了适用于此类模型的当前自然语言处理任务以及此类模型可能带来的好处,包括陈述的快速可验证性。并提出了发展具备引用能力的语言模型所需解决的若干子任务。希望引发与构建语言模型的当前方法、特别是面向低资源语言模型和训练数据在解释模型生成过程中的作用的讨论。