Jan, 2025

CALM: 基于好奇心驱动的大型语言模型审计

TL;DR本研究针对对大型语言模型(LLMs)的审计问题进行探讨,特别是在无法访问其参数的情况下。提出了基于好奇心驱动的审计方法CALM,通过强化学习来优化审计过程,以识别有害和偏见的输入输出对,显著提高了识别不当行为的能力,为黑盒LLMs的审计提供了新思路。