Feb, 2024

DyVal 2:通过元探测代理动态评估大型语言模型

TL;DR通过元探测代理 (MPA) 和心理测量学为大型语言模型 (LLM) 设计的动态评估协议,我们对LLMs进行了细致的评估并发现大多数LLMs的性能较差,揭示了基本认知能力与模型规模之间的强相关性,同时MPA还可用作数据增强方法以增强LLMs的性能。