Sep, 2023

如何捕捉一个 AI 撒谎者:通过提出无关问题来检测黑盒 LLMs 中的谎言

TL;DR通过提出一个简单的黑盒检测器,在事实问题下,只需通过预定义的一系列无关联的后续问题以及将大型语言模型的否定 / 肯定回答输入到逻辑回归分类器中,我们发现大型语言模型存在特定的与说谎相关的行为模式,这表明它们可以用于实现通用目的的说谎检测。