Oct, 2022

解释质量评估中的挑战

TL;DR本文探讨了解释质量的评估以及当前主流的代理分数评价方法的问题,得出代理分数与人类评分相关性较差,且使用频率越高表达能力越弱的结论,最终提出指导方针以实现有意义的评价和推动系统的发展。