Jun, 2024

可解释性检查表在评估员LLMs中的盲点发现

TL;DR通过引入有针对性的扰动来测试评估者LLMs的能力,研究发现当前评估者LLMs存在显著不足,并强调在实际应用中需谨慎使用。