Oct, 2023

利用词语猜测游戏评估大型语言模型的智能

TL;DR通过使用单词猜谜游戏评估 LLM 的智能性能,本研究提出了 DEEP 和 SpyGame 两个评估框架,能够有效评估各种 LLM 的能力,并捕捉其适应新情境和战略性沟通的能力。