Jun, 2024

可解释性检查表在评估员 LLMs 中的盲点发现

TL;DR通过引入有针对性的扰动来测试评估者 LLMs 的能力,研究发现当前评估者 LLMs 存在显著不足,并强调在实际应用中需谨慎使用。