Apr, 2024
FreeEval: 大型语言模型的可靠高效评估的模块化框架
FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models
Zhuohao Yu, Chang Gao, Wenjin Yao, Yidong Wang, Zhengran Zeng...
TL;DR介绍了一个名为 FreeEval 的模块化和可扩展框架,用于可靠高效地自动评估大型语言模型,通过统一的架构整合了各种评估方法,并结合人工评估和数据污染检测等元评估技术,实现了评估结果的公平性。