Oct, 2024

塔式评估:复杂指令评估的树形组织加权方法

TL;DR本研究针对当前评估大语言模型(LLMs)遵循复杂人类指令的方式存在时间和资源消耗大的问题,提出了一种新颖的评估标准“TOWER”。该方法整合了人类评审的重要性判断,研究发现人类注释者对复杂指令的树状表示与其他人类注释者的共识度几乎相同,从而提升了评估的准确性和效率。