Mar, 2024

CLongEval: 用于评估长文本大语言模型的中文基准

TL;DR我们提出了一个用于评估长文本上下文下的大型语言模型的全面中文基准测试 ——CLongEval,特点是足够的数据量、广泛的适用性和高质量。通过对 6 个开源长文本上下文大型语言模型和 2 个领先的商业对手进行评估,我们对长文本上下文模型的关键能力进行了深入分析,并提供了数据集、评估脚本和模型输出。