Jul, 2023

形式胜于内容:大型语言模型的评估偏见

TL;DR在评估自然语言生成的过程中,使用大型语言模型 (LLMs) 作为人类评判的替代方法是一种最新的趋势。然而,本研究发现其评估结果存在偏见。为解决这一问题,提出了多维度独立评估系统 (Multi-Elo Rating System),在提高 LLM 评估质量方面取得了显著成效,但对众包评估没有明显改善,需要进一步探索和改进。