Apr, 2023

领域掌握基准:评估大型语言模型整体领域知识的不断更新基准 -- 初步发布

TL;DR本文介绍了一个包含十万条问题的中英混合数据集 DomMa,它是一个综合多领域、大量数据的评测系统,目的是用于测试大型语言模型在领域语言理解方面的能力,并提出了更适合大型语言模型的评测设计。