Feb, 2024

使用人类参与的方法开展大型语言模型审计的框架开发

TL;DR我们提出了一种自动且可扩展的解决方案来对 LLM 进行审核,其中使用了不同的 LLM 以及人类参与。通过人类参与,我们可以验证回复的标准化评估准则以及生成所需的审核方法。在 TruthfulQA 数据集上的实验证明了我们可以从一个 LLM 生成可靠的审核方法,以用于审核另一个 LLM 的不一致之处。生成和应用审核方法的标准是普适的,适用于不同的 LLM,无论其底层结构或训练机制如何。