Sep, 2024

评估语言模型行为的复制危机日益严峻?证据与解决方案

TL;DR本研究针对当前大型语言模型(LLM)行为研究中缺乏明确方法指导的问题,探讨了复制危机的潜在风险,并通过一系列复制实验验证了与提示工程技术相关的研究发现的可靠性。研究表明,大多数测试技术在统计上未显示显著差异,凸显了以往研究中的一些方法学缺陷,并提出了建立稳健评估方法和严格实验框架的前瞻性方案。