Oct, 2023

Prometheus: 语言模型细粒度评估能力的引入

TL;DR通过建立 Feedback Collection 数据集,使用 Prometheus 这一开源 LLM 评估模型,我们可以有效地根据用户提供的评分标准来评估任何长篇文本,其得分与人类评估员的相关性达到了 0.897,与 GPT-4 相当,并且明显优于 ChatGPT (0.392)。