基础模型和指令调整的大型语言模型的可信度估计比较

Mar, 2024

基础模型和指令调整的大型语言模型的可信度估计比较

Comparing Plausibility Estimates in Base and Instruction-Tuned Large Language Models

Carina Kauf, Emmanuele Chersoni, Alessandro Lenci, Evelina Fedorenko, Anna A. Ivanova

TL;DR通过比较基本模型和指导调优后的 LLM 在英语句子合理性任务中的性能，本文综合研究了评估 LLM 中语义合理性的方式，并发现 LL 分数依然是最可靠的衡量 LLM 合理性的指标，而直接指引则不如之前所预期。

Abstract

instruction-tuned llms can respond to explicit queries formulated as prompts, which greatly facilitates interaction with human users. However, prompt-based approaches might not always be able to tap into the wealth of implicit knowledge acquired by LLMs during pre-training. This paper

instruction-tuned llms semantic plausibility sentence plausibility task log likelihood scores context-sensitive plausibility

发现论文，激发创造

大型语言模型的心理测量预测能力

语言模型的下一个词概率已成功模拟了人类阅读行为。然而，在此基础上的研究表明，为了提供人类首选回答而进行的指导调整反而降低了大型语言模型在计算心理语言学视角下的心理测量预测能力。此外，使用特定语言学假设的提示方法仍然不如基础语言模型，暗示最近的指导调整和提示方法在认知建模中无法提供比基础语言模型更好的估计。

Nov, 2023

用于心理语言学合理性预测的大型语言模型

使用语言模型生成合理性判断，并在多个语言结构中评估其与人类判断的相关性。发现 GPT-4 与人类判断高度相关，可代替人类进行粗粒度合理性预测试。但在需要细粒度判断时，即使是 GPT-4 也无法提供令人满意的区分能力。

Feb, 2024

基于提示的方法可能会低估大型语言模型的语言泛化能力

本文比较了元语言激励和直接概率测量作为衡量英语知识的方法，并发现大语言模型的元语言判断低于直接从表示中派生出的数量。

May, 2023

评估语言模型的零样本鲁棒性

本研究提出了一种简单的方法来提高指导微调模型的鲁棒性，即通过引入 “软提示” 嵌入参数并优化这些参数来最大化语义等效说明的表示之间的相似性。

Jun, 2023

有监督的知识提升大语言模型在上下文学习中的表现

通过提示工程，大型语言模型（LLMs）展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而，在自然语言理解和问题回答方面，提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。

Dec, 2023

大型语言模型的上下文忠实提示

本文探讨了大型语言模型在知识获取任务中通过设计启示策略，特别是意见为基础的提示和反事实演示，有效提高了上下文的真实性，并在三个数据集上进行实验，结果表明在上下文中的忠实度有了显著提高。

Mar, 2023

注意指令：基于提示的学习中一致性和交互的整体评估

通过系统、全面的评估，本研究发现预训练语言模型的适应任务方式中的设计选择会造成不稳定性和不一致性的问题，并指出在大多数场景中应该避免或小心处理哪些因素。

Oct, 2023

大型语言模型是否表现出认知失调？研究揭示观点和陈述答案之间的差异

我们通过转化问题、多选题和直接文本补全的实验评估，研究了大型语言模型（LLMs）在因果推理、不确定性方面能力的量化，结果显示 LLMs 的表态答案与预测真实信念存在显著差异，提示它们的信念可能在多种情景和结果中存在多重偏见和不准确性，对于 LLMs 能力的评估方法仅提供了部分信息，需要进一步研究其能力的广度和本质。

Jun, 2024

多模态语言模型的性能评估

该研究分析了不同的多模态指导调优方法，并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能，揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解，但当前方法存在局限性，未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题，这些发现阐明了适应图像理解的语言模型的现有方法学限制，并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。

Oct, 2023

基于似然的大型语言模型评估偏差的缓解

大型语言模型广泛用于自然语言生成任务的自动评估指标，然而，由于句子中的表面差异（如词序和句子结构），可能会导致语言模型的可能性有所偏差，本文研究了基于语言模型的评估器中可能存在的可能性偏见，并提出了缓解可能性偏见的方法，该方法利用高度偏倚的实例作为少样本示例进行上下文学习，实验证明我们测试的几个语言模型存在可能性偏见，而且我们提出的方法成功地缓解了这种偏见，并显著提高了评估性能（与人类评分的相关性）。

Feb, 2024