Feb, 2024

将认知任务整合进针对大型模型的人工通用智能测试

TL;DR大型模型的性能评估是保证其能力和应用安全性的必要步骤,而当前的模型评估缺乏一个统一的框架来评估大型模型的多维智能。本文提出了一个全面的人工智能测试框架,包括认知科学和自然语言处理,旨在评估大型模型的智能水平,并通过一系列认知测试来指导其在不同智能维度上的改进和加速其融入人类社会的过程。