Jun, 2024

E-Bench: 大型语言模型易用性评估

TL;DR通过系统分析大型语言模型(LLMs)抵抗提示扰动的稳定性,本研究构建 E-Bench 模拟真实人类使用情况,并讨论了同义扰动和排版扰动的组合以及性能下降的主要原因,实验证明即便随着模型规模的增加,易用性显著提升,但仍需努力建立足够用户友好的模型。