May, 2024

CT-Eval: 大型语言模型中中国文本到表格性能的基准评估

TL;DR通过构建一个中文文本到表格的数据集 CT-Eval,并利用该数据集评估开源和闭源的大型语言模型 (包括 GPT-4) 的性能,研究结果显示零翻译大型语言模型仍然与人类判断存在明显的性能差距,但经过微调后,开源的大型语言模型的文本到表格能力可以显著提高,超过了 GPT-4 很大的程度。这表明 CT-Eval 不仅可以帮助研究人员评估和快速了解现有大型语言模型的中文文本到表格能力,还可作为极大提升大型语言模型文本到表格性能的宝贵资源。