Jul, 2024

将模型评估与人类偏好对齐:减轻语言模型评估中的词汇计数偏差

TL;DR使用SLAM展示,在设备上的小型语言模型是与基于API的大型语言模型(如OpenAI的GPT-4)相比,一种可行且成本效益高的替代方案,具有可比的性能和稳定性。这份后续研究详细探讨了如何通过解决偏向高标记数的偏差,来调整LLM评估器与人类评估的偏好之间的差异问题。通过采用贝叶斯统计和t检验来量化此偏差,并开发出重新校准GPTScorer的过程,我们的研究结果在多个应用案例中,显著改进了重新校准的LLM评估器与人类评估之间的斯皮尔曼等级相关分数,例如,在推荐系统的案例中,从-27.27提高到44.55。这些结果强调了在自动化评估中考虑偏差的重要性,以确保公正准确的模型评估。重新校准过程提高了自动评估器的可靠性,从而产生与人类价值观和期望相一致的更好的AI模型。该研究为未来的偏差校正研究提供了强有力的方法,并强调了开发与人类一致的AI评估系统的可行性和益处。