大型语言模型的上下文忠实提示
通过利用因果关系作为一种工具来提高大型语言模型的可信度,我们提出了一种测试时解决方案 —— 利用开放背景提示来鼓励公平性和稳健性,以使模型在不同基准数据集上提供更可靠的预测。
Jun, 2024
通过提示工程,大型语言模型(LLMs)展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而,在自然语言理解和问题回答方面,提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。
Dec, 2023
本文提出了一个度量标准,评估了一个固定提示对标签或给定属性的预测偏差,并提出了一种新的基于贪心搜索的搜索策略来确定最佳提示,以提高上下文学习的性能,并在多种下游任务中使用 GPT-3 等最先进的主流模型进行全面实验。结果表明,我们的方法可以有效提高模型的在上下文学习性能。
Mar, 2023
我们提出了一种估计大型语言模型中嵌入的潜在知识的方法,该方法利用了大型语言模型的上下文学习能力来估计模型对存储在知识库中的事实的了解程度,并且我们的知识估计器避免了以前的提示式方法中存在的可靠性问题,且在概念上更简单且更易于应用,我们证明它可以揭示出更多嵌入在大型语言模型中的潜在知识。我们还研究了不同设计选择对基于上下文学习的知识估计性能的影响。通过所提出的估计器,我们对各种开源大型语言模型(如 OPT,Pythia,Llama (2),Mistral,Gemma 等)在来自 Wikidata 知识库的大量关系和事实上的事实知识进行了大规模评估。我们观察到不同模型家族和不同大小的模型之间的事实知识存在差异,某些关系普遍比其他关系更为熟知,但是模型在知识上存在差异,以及基本模型和其微调模型之间的知识差异。
Apr, 2024
本文提出了一种名为 MONITOR 的新度量方法,用于直接衡量大型语言模型的事实可靠性,通过计算有效输出与同一模型使用不同类型提示和上下文进行探索所产生的对应输出之间的概率分布距离来评估模型的一致性。实验证明 MONITOR 对于评估大型语言模型的事实可靠性具有良好的效果,并且计算开销较低。此外,作者还发布了包含 210,158 个提示的 FKTC 测试集,以促进相关研究的开展。
Oct, 2023
提出了一种通过从输入文本中生成提示来实现知识注入的简单而通用的方法,从而增强大型语言模型在特定领域的自然语言处理任务中的性能,并通过对微调后的大型语言模型进行探测评估来证明该方法的有效性。
Mar, 2024
解释自然语言处理系统预测的因果解释对于确保安全性和建立信任至关重要,本文提出了两种针对模型无关性的倒因果估算方法,分别基于生成和匹配,并通过实验证明了生成模型和匹配模型在模型解释方面的出色性能。
Oct, 2023
大型语言模型 (LLMs) 面临处理事实知识的问题,本研究通过知识探测框架 BELIEF (-ICL),从多个角度评估编码器型和解码器型大型语言模型对事实知识的理解能力,并利用多样的提示数据集 MyriadLAMA 进行可靠的评估,揭示了大型语言模型在学习事实方面的关键因素和基于提示的知识探测的局限性。
Jun, 2024
本文探讨利用语言模型 (LLMs) 作为知识源,辅助 agent 学习新任务的能力。通过使用构建提示词(或 “暗示”),研究什么样的响应既合理,又可以满足 Agent 任务上下文。研究结果表明,在线 agent 任务学习可以从 LLMs 获取可操作的任务知识。
Sep, 2022