BriefGPT.xyz
大模型
Ask
alpha
关键词
auditing method
搜索结果 - 2
LLM 激活中的幻觉弱监督检测
我们提出了一种审计方法,用于确定大型语言模型中是否编码了诸如幻觉等模式,并可向下游任务传播。我们引入了一种弱监督的审计技术,使用子集扫描方法来检测预训练模型中 LLM 激活的异常模式。重要的是,我们的方法不需要先验知识来了解模式的类型,而是
→
PDF
7 months ago
AAAI
预测模型中潜在的传播采样偏差可证明检测
本文研究了在从(可能有偏见的)训练数据中学习预测模型,并通过某种审计方法事后评估公平性的一般性情况,通过定量而非定性地评估数据偏差的下游影响并证明检测的理论保证。
PDF
a year ago
Prev
Next