Nov, 2022

语言模型整体评估

TL;DR我们提出了综合评估语言模型 (HELM) 来提高人们对这一基础技术的透明度,采用多指标方法测量 16 个核心场景的 7 个指标,此外还进行了 7 个有针对性的评估,总结了 25 个高层次结论,并公开了所有模型和完成的原始数据。