Sep, 2024

可爱:测量大型语言模型对其标记的理解

TL;DR本文研究大型语言模型(LLMs)在拼写知识方面的能力,提出了一个新基准CUTE来评估这些模型的正字法知识。结果显示,尽管大多数LLMs能识别其标记的拼写,但在有效利用这些信息编辑文本方面存在不足,这引发了关于其知识可推广性的质疑。