May, 2024

C$^{3}$Bench:一个面向大型语言模型的综合性古代汉语理解基准

TL;DR通过提出 C^3bench,我们在五个主要的古文理解任务中广泛评估了 15 个代表性大语言模型的定量性能。结果表明,现有的大语言模型在古文理解任务上仍然表现不佳,相比受监督模型仍然较差。我们相信这项研究可以为未来基于大语言模型的古文理解研究提供标准基准、全面的基线和有价值的见解。