Apr, 2024

谁来验证验证者?使 LLM 辅助评估 LLM 输出与人类偏好保持一致

TL;DR通过混合主动的方式,我们提出了 EvalGen 接口,用于 “验证验证器”,通过与人类需求对齐以改善与 LLM 生成评估函数(提示或代码)相关的问题。研究发现了一种现象,称为‘criteria drift’,用户需要通过对输出进行评分来定义评分标准,但评分输出帮助用户界定标准,而某些标准与特定 LLM 输出相关,这引发了对假设评估与模型输出的独立性的严重问题。我们展示了接口和实施细节,与基准方法进行比较,并对未来 LLM 评估助手的设计提出了建议。