Dec, 2023

迫使他们坦白! 从(生产)LLM 中进行强制知识提取

TL;DR大型语言模型的伦理标准与人类价值的对齐可以通过模型输出日志的滥用来被破坏,我们提出的模型审问方法能够揭示隐藏在输出日志中的有害回复,有效性达到 92%,速度快 10 到 20 倍,对编码任务也适用。