BriefGPT.xyz
大模型
Ask
alpha
关键词
application assessment
搜索结果 - 2
ACL
在 CFLUE 上对大型语言模型进行基准测试 —— 中文金融语言理解评估数据集
我们提出了中文金融语言理解评估基准 CFLUE,用于评估大型语言模型在知识评估和应用评估方面的能力。CFLUE 提供了定制的数据集,用于知识评估和应用评估,并进行了代表性大型语言模型的彻底评估。
PDF
2 months ago
评估和验证 LLM 驱动的应用中的任务效用
通过提出一套针对特定应用目的的标准,AgentEval 框架可以自动化地简化应用的效用验证过程,从而综合评估和量化该应用程序的效用。
PDF
2 months ago
Prev
Next