基于提示的方法可能会低估大型语言模型的语言泛化能力

May, 2023

基于提示的方法可能会低估大型语言模型的语言泛化能力

Prompt-based methods may underestimate large language models' linguistic generalizations

Jennifer Hu, Roger Levy

TL;DR本文比较了元语言激励和直接概率测量作为衡量英语知识的方法，并发现大语言模型的元语言判断低于直接从表示中派生出的数量。

Abstract

Prompting is now a dominant method for evaluating the linguistic knowledge of large language models (LLMs). While other methods directly read out models' →

linguistic knowledge large language models metalinguistic judgment probability distributions english

发现论文，激发创造

元认知提示提高大型语言模型的理解能力

通过使用元认知提示，通过系统性的结构化、自我意识评估，结合大量内在的知识和新的认识，可以提高大型语言模型的理解能力。实验结果表明，元认知提示始终优于现有的提示方法，并通过提高 GPT-4 的性能水平，增强了 GPT-4 在各种自然语言理解任务中的表现。

Aug, 2023

简单的 LLM 提示是稳健多语言对话评估的尖端技术

研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式，提出了一种新颖的框架，以实现对对话的鲁棒性和多语言性评估能力，并在多个基准测试中取得了最先进的成果，并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅，证明了提示性大语言模型的评估能力。

Aug, 2023

在教育和评估应用中探索提示式大型语言模型的能力

利用大语言模型在现代教育领域创新的机会，通过研究提问型大语言模型、语法错误解释和人力资源面试评估，揭示了大语言模型在改变教育实践中的潜力和限制。

May, 2024

触发语言：什么语言属性使得提示成功？

在这项研究中，我们调查了不同规模、预训练和指导调优的 LLMs 在在语义上等效但语言结构不同的提示上的性能，发现 LLMs 的性能不能通过困惑度、词频、歧义或提示长度来解释，并提出了对提示研究更健壮和综合的评估标准的建议。

Nov, 2023

大型语言模型的高效提示方法综述

在这篇论文中，我们对高效提示的各种方法进行了全面的概述，包括使用高效计算和高效设计进行提示的方法，重点关注未来的研究方向。

Apr, 2024

大型语言模型的心理测量预测能力

语言模型的下一个词概率已成功模拟了人类阅读行为。然而，在此基础上的研究表明，为了提供人类首选回答而进行的指导调整反而降低了大型语言模型在计算心理语言学视角下的心理测量预测能力。此外，使用特定语言学假设的提示方法仍然不如基础语言模型，暗示最近的指导调整和提示方法在认知建模中无法提供比基础语言模型更好的估计。

Nov, 2023

量化语言模型对触发设计中伪特征的敏感性，或：我如何开始担忧触发格式

大语言模型的关键因素在于提示设计对其性能会产生巨大影响，通过许多方面的分析研究，我们发现几种常用开源大语言模型对微妙的提示格式变化具有极高的敏感性，这种敏感性在不断增加模型大小、样本数量或进行指令调整时仍然存在。

Oct, 2023

促使语言模型理解语言结构

使用结构化提示技术，我们证明了预先训练的语言模型（PLMs）可以在零或少量样本情况下执行标记任务，而不是仅靠表面级别的词汇模式，这表明 PLMs 包含了一种通用的语言学知识表示方式。

Nov, 2022

评估大型语言模型在心理测量工具上的可靠性

大型语言模型（LLMs）在社会科学研究中的自然语言理解任务的通用性使其备受青睐。本研究探讨了当前的提示格式是否能使 LLMs 以一致且稳健的方式提供回答，结论发现即使对选项顺序进行简单扰动也足以显著降低模型的问答能力，且大多数 LLMs 在否定一致性方面表现低下，提示目前的普遍做法无法准确捕捉模型的认知，我们讨论了改进这些问题的可能替代方案。

Nov, 2023

大型语言模型的提示式编程：超越少样本范式

使用 GPT-3 模型分析得出少量样例引导更接近于已学习的任务，本文探讨使用自然语言编程来优化引导，提出元引导概念后能够生成更多的任务自然语言引导，展望这些方法如何应用于实践应用。

Feb, 2021