基于提示的方法可能会低估大型语言模型的语言泛化能力
通过使用元认知提示,通过系统性的结构化、自我意识评估,结合大量内在的知识和新的认识,可以提高大型语言模型的理解能力。实验结果表明,元认知提示始终优于现有的提示方法,并通过提高 GPT-4 的性能水平,增强了 GPT-4 在各种自然语言理解任务中的表现。
Aug, 2023
研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式,提出了一种新颖的框架,以实现对对话的鲁棒性和多语言性评估能力,并在多个基准测试中取得了最先进的成果,并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅,证明了提示性大语言模型的评估能力。
Aug, 2023
利用大语言模型在现代教育领域创新的机会,通过研究提问型大语言模型、语法错误解释和人力资源面试评估,揭示了大语言模型在改变教育实践中的潜力和限制。
May, 2024
在这项研究中,我们调查了不同规模、预训练和指导调优的 LLMs 在在语义上等效但语言结构不同的提示上的性能,发现 LLMs 的性能不能通过困惑度、词频、歧义或提示长度来解释,并提出了对提示研究更健壮和综合的评估标准的建议。
Nov, 2023
语言模型的下一个词概率已成功模拟了人类阅读行为。然而,在此基础上的研究表明,为了提供人类首选回答而进行的指导调整反而降低了大型语言模型在计算心理语言学视角下的心理测量预测能力。此外,使用特定语言学假设的提示方法仍然不如基础语言模型,暗示最近的指导调整和提示方法在认知建模中无法提供比基础语言模型更好的估计。
Nov, 2023
大语言模型的关键因素在于提示设计对其性能会产生巨大影响,通过许多方面的分析研究,我们发现几种常用开源大语言模型对微妙的提示格式变化具有极高的敏感性,这种敏感性在不断增加模型大小、样本数量或进行指令调整时仍然存在。
Oct, 2023
使用结构化提示技术,我们证明了预先训练的语言模型(PLMs)可以在零或少量样本情况下执行标记任务,而不是仅靠表面级别的词汇模式,这表明 PLMs 包含了一种通用的语言学知识表示方式。
Nov, 2022
大型语言模型(LLMs)在社会科学研究中的自然语言理解任务的通用性使其备受青睐。本研究探讨了当前的提示格式是否能使 LLMs 以一致且稳健的方式提供回答,结论发现即使对选项顺序进行简单扰动也足以显著降低模型的问答能力,且大多数 LLMs 在否定一致性方面表现低下,提示目前的普遍做法无法准确捕捉模型的认知,我们讨论了改进这些问题的可能替代方案。
Nov, 2023
使用 GPT-3 模型分析得出少量样例引导更接近于已学习的任务,本文探讨使用自然语言编程来优化引导,提出元引导概念后能够生成更多的任务自然语言引导,展望这些方法如何应用于实践应用。
Feb, 2021