Dec, 2023

ICL一致性测试

TL;DR通过在GenBench合作基准任务中引入ICL一致性测试,我们对适应任务的通过提示方法(如上下文学习)的大型语言模型执行预测的一致性进行了评估,并发现所有测试的LLM模型均缺乏强健的泛化能力。