Jul, 2023

RoCar:基于关系网络的大规模语言模型评估方法

TL;DR我们提出了RoCar方法,利用定义的基本模式随机构建任务图,并基于任务图生成自然语言评估任务,以分别评估LLMs的推理和记忆能力。通过任务构建过程的高度随机性,可以确保被测试的LLMs没有直接学习评估任务,保证评估方法的公正性。