Jun, 2024

LLMs分类性能被夸大

TL;DR该研究评估了闭源和开源的大型语言模型在典型分类任务中的表现,讨论了大型语言模型在没有正确标签的情况下理解任务本质的能力,并提出了一个新的测试基准和评估指标。