Jan, 2024

RoTBench: 评估大型语言模型在工具学习中的鲁棒性的多层级基准测试

TL;DR介绍了 RoTBench,用于评估工具学习中 LLMs 的鲁棒性的多级基准。通过在五个不同级别的噪声环境下进行实验,揭示了现有模型在工具选择、参数识别和内容填充三个关键阶段中的弹性问题。为了增强 LLMs 在工具学习中的鲁棒性,提出了 RoTTuning 策略。