Sep, 2024

我们能依赖大型语言模型吗?固定效应谬误与GPT-4能力的主张

TL;DR本文探讨了对大型语言模型(LLM)能力的评估问题,揭示了在多个确定性任务上GPT-4的性能数据。研究发现,任务提示和输入参数的微小修改会导致显著的性能差异,说明量化LLM能力的努力容易受到固定效应谬误的影响,这使得人们在预测LLM对输入修改的反应时容易产生误导。