AAAIDec, 2023

CORECODE: 一个带有基准任务的常识注释对话数据集,用于中文大型语言模型

TL;DRCORECODE 是一个包含丰富常识知识的中文大型语言模型的数据集,用于评估中文大型语言模型的常识推理和冲突检测能力。研究使用众包方式收集了 76,787 个常识知识注释,并通过对话级推理和检测任务验证模型在该数据集上的能力,结果表明现有的开源中文大型语言模型在预测丰富的推理内容方面表现不佳。