Mar, 2023

通过离散优化自动审计大型语言模型

TL;DR通过优化方法与 ARCA 算法,该研究提出了一种用于审核大型语言模型的新工具,能够在模型部署之前预测模型的失败模式。