Jul, 2024

CFinBench:大型语言模型的全面中文金融基准

TL;DR提出了 CFinBench:一个经过精心设计的,迄今为止最全面的评估基准,用于评估大型语言模型在中国金融领域的金融知识,包括财务学科、金融资格、金融实践和金融法律等四个一级类别。实验结果表明,GPT4 和一些面向中文的模型在 CFinBench 中取得最佳性能,平均准确率高达 60.16%。