BriefGPT.xyz
Jan, 2025
CALM: 基于好奇心驱动的大型语言模型审计
CALM: Curiosity-Driven Auditing for Large Language Models
HTML
PDF
Xiang Zheng, Longxiang Wang, Yi Liu, Xingjun Ma, Chao Shen...
TL;DR
本研究针对对大型语言模型(LLMs)的审计问题进行探讨,特别是在无法访问其参数的情况下。提出了基于好奇心驱动的审计方法CALM,通过强化学习来优化审计过程,以识别有害和偏见的输入输出对,显著提高了识别不当行为的能力,为黑盒LLMs的审计提供了新思路。
Abstract
Auditing
Large Language Models
(LLMs) is a crucial and challenging task. In this study, we focus on
Auditing
black-box LLMs without access
→