Apr, 2024

用多元模型评估 LLM 生成:将法官替换为陪审团

TL;DR使用 LLm 评估员小组 (PoLL) 替代单个大模型如 GPT4 进行评估,可以在减少评估成本的情况下,展现较少内部模型偏见,并且在三种不同的评估环境和六个不同数据集上表现更好。