Mar, 2024

利用匿名的众包平台实现大型语言模型的个性化评估

TL;DR我们提出了一个新的匿名众包评估平台——冰见,旨在评估大型语言模型的性能。该平台不仅支持对模型的总体能力进行集中评估,而且提供了一个开放的评估通道,使用户有机会根据个性化和可能更广泛的需求向模型提交问题。此外,我们的平台引入了个性化评估场景,利用各种形式的人机交互来考察大型语言模型,以充分考虑用户的个性化偏好和背景。