Feb, 2024

基于预测的大型语言模型排序

TL;DR使用统计框架,我们可以以一定的概率保证,通过人类和强大的大型语言模型的成对比较排名结果覆盖了人类偏好的真实排名。