Mar, 2024

CatCode: 基于代码和文本混合的 LLMs 综合评估框架

TL;DR使用范畴论作为框架,提出了一个名为 CatCode 的自动评估框架,可以全面评估大语言模型在编码能力方面的表现。