Jun, 2024

RUPBench:基于干扰的推理鲁棒性评估大型语言模型的基准测试

TL;DR通过对大型语言模型(LLMs)进行系统的鲁棒性评估,本研究提供了关于 LLMs 对多样化和噪声输入的处理能力方面的进一步改进的见解。