BriefGPT.xyz
大模型
Ask
alpha
关键词
knowledge capacity
搜索结果 - 2
PertEval: 揭示权知识能力不变扰动下的 LLMs 真实知识容量
通过 PertEval 工具集,利用知识不变的扰动以人类样式修正技巧从静态基准中生成即席测试样本,精确评估 LLMs 真正的知识能力。通过对六个最先进的 LLMs 进行重新评估,结果显示 LLMs 在原始基准上明显夸大性能,其中包括 GPT
→
PDF
a month ago
CPopQA: 通过 LLMs 对文化概念的热度进行排名
该研究通过引入一种新的少样本问答任务(CPopQA),评估了大型语言模型(LLMs)对长尾文化概念(如假期)的统计排名能力,特别关注这些概念在美国和英国的受欢迎程度,并发现 GPT-3.5 在跨大洲识别地理文化接近性方面表现出卓越性能。
PDF
8 months ago
Prev
Next