Oct, 2023

大型语言模型能否理解古代汉语?对 ACLUE 进行初步测试

TL;DRACLUE 是一个评估基准,通过评估八个现代语言模型在理解古代汉语方面的能力,观察到它们在现代汉语和古代汉语之间的性能存在显著差异,其中 ChatGLM2 表现最出色,获得了平均 37.4% 的得分。