BriefGPT.xyz
大模型
Ask
alpha
关键词
gold labels
搜索结果 - 1
LLMs 分类性能被夸大
该研究评估了闭源和开源的大型语言模型在典型分类任务中的表现,讨论了大型语言模型在没有正确标签的情况下理解任务本质的能力,并提出了一个新的测试基准和评估指标。
PDF
11 days ago
Prev
Next