预训练语言模型的一致性测量和提升
本研究针对更新的预训练语言模型(PLMs)在语义一致性方面的问题,提出了一种衡量语义一致性的度量标准,并在 TruthfulQA 数据集上评估多个 PLMs 的性能,发现我们提出的语义一致性度量标准比传统的基于词汇一致性的度量标准更可靠,也与人类评估输出一致性的程度更为相关。
Nov, 2022
本文调查了多语言语言模型(如 mBERT 和 XLM-R)在一些语言下对事实知识预测的一致性,并发现尽管在英语下,这些模型的一致性与其单语言模型相似,但在其他 45 种语言下,这些模型的一致性程度却较低。
Mar, 2022
大型语言模型在对意义保持改写的输入作出回应时表现不一致。我们提出了一种度量自然语言推理模型改写一致性的评估指标,该指标基于模型在同一问题的两个改写上的正确性概率,并将其与改写相关的正确性变化的比例数学上相连。通过收集 ParaNLU 数据集,我们测量了几种模型类别的改写一致性,并展示了一致性随预训练而显著增加,而微调则没有。所有测试模型在改写一致性方面都有改进的空间。
Apr, 2024
基于概念角色理论,我们提出一种实用的方法来从根本上提高预训练语言模型的意义感知能力,通过学习字典中单词和定义之间的精确概念关系,进而结合预训练知识来改善模型的不一致行为并实现知识高效整合。实验结果表明此方法能同时提升多种一致性类型,实现知识的高效整合,并可以轻松应用于其他语言。
Oct, 2023
在本研究中,我们考虑了预训练语言模型(PLMs)中的实际知识的一种补充性特征,即 PLMs 中实际知识的连贯性。我们的结果表明,PLMs 在使用手动编写的、优化的和改写的提示时具有较低的连贯性,但包含证据段落则会有显著改善。这表明 PLMs 未能建模逆关系,并需要进一步增强才能以连贯的方式处理从其参数中检索事实,并被视为知识库。
Feb, 2024
本文介绍了一个对预训练语言模型(PLMs)的普适语言能力进行大规模实证研究的 ElitePLM,并设计了四个评估维度来衡量十种广泛使用的 PLMs,包括记忆、理解、推理和组合。实验结果表明,PLMs 在不同的能力测试中表现出色;下游任务中的微调通常对数据大小和分布敏感;PLMs 在类似任务之间具有出色的可转移性,并且 PLMs 的预测结果在我们的实验中作为开放资源发布,以进行更深入和详细的 PLMs 语言能力分析。这篇论文可以引导未来的工作选择,应用和设计特定任务的 PLMs。
May, 2022
本文通过精细控制实验和给定数据集,考察了 PLM 模型在训练过程中的校准性能,发现仍然存在校准问题;然后对比了多种方法,提出基于已有方法的扩展性学习方法,证明其显著提高模型的不确定性估计水平。
Oct, 2022
我们通过手动创建一个高质量的事实问答近义词语料库,并与先前工作中的其他相关度量标准相结合,以评估现代大型语言模型(LLMs)的语义一致性,以构建和评估一个用于事实问答参考无关性能预测的框架 -- 预测语言模型准确回答问题的可能性。通过对五个现代 LLMs 对该框架进行评估,我们展示了令人鼓舞的结果,显著超越了基线水平。
Nov, 2023
本文论述了预训练语言模型(PLM)的重要性以及知识增强型预训练语言模型(KE-PLMs)的研究现状,探讨了 KE-PLMs 在各种 NLU 和 NLG 应用中的超越性能以及 KE-PLMs 面临的挑战和未来研究方向。
Oct, 2021
大型语言模型似乎会在调查回答中表现出某种偏见,但有些人认为它们不够一致,无法模拟特定的价值观。为了回答这个问题,我们首先将价值一致性定义为(1)同一个问题的释义,(2)同一个主题下的相关问题,(3)单个问题的多项选择和开放性用例,以及(4)将问题翻译成英文、中文、德文和日文。我们将这些测量方法应用于几个大型(>=34b)的开源 LLM,包括 llama-3 和 gpt-4o,使用超过 300 个主题、八千个问题的数据。与之前的研究不同,我们发现模型在释义、用例、翻译和主题上相对一致。然而,仍然存在一些不一致之处。相对于微调模型,基础模型在一致性方面更加一致,并且在不同主题上保持一致,而微调模型在某些主题(如 “安乐死”)上的一致性较差,而在其他主题(如 “妇女权益”)上的一致性与人类研究对象(n=165)相似。
Jul, 2024