Apr, 2024

一个以用户为中心的评估大型语言模型的基准

TL;DR我们提出了从用户角度对大型语言模型进行基准测试,旨在更好地反映实际用户需求,并且我们还构建了用户报告场景数据集以及对 10 个语言模型服务在满足用户需求方面的基准测试。