Sep, 2023

EvalLM: 大型语言模型提示的交互式评估及用户定义准则

TL;DR通过评估多个用户定义的标准,使用自然语言描述系统的评估器提供的反馈,从而使开发人员能够通过迭代改进引导语。与手动评估相比,EvalLM有助于参与者构建更多样化的标准,检查两倍数量的输出,并在减少59%的修订次数后获得令人满意的引导语。该研究可扩展到模型评估和特定应用环境中的对齐。