Jul, 2024

一个针对大型语言模型的 S.C.O.R.E. 评估框架:安全性,共识性,客观性,可重复性和可解释性

TL;DR一个用于对大型语言模型进行全面质量评估的框架,超越传统准确性和定量指标,提出了评估 LLM 的 5 个关键方面:安全性、共识性、客观性、可再现性和可解释性(S.C.O.R.E.)。我们建议 S.C.O.R.E. 可以成为未来的基于 LLM 模型的评估框架,用于医疗保健和临床应用,确保其安全、可靠、可信和道德。