Oct, 2023

大型语言模型是否了解事实?

TL;DR通过设计基准测试 Pinocchio,综合评估大型语言模型 (LLMs) 中的事实知识的广度和范围,研究发现现有的 LLMs 仍然缺乏事实知识并存在各种虚假相关性,这成为实现可靠人工智能的关键瓶颈。