ICLRMay, 2024

模型对模型欺骗评估

TL;DR高性能语言模型的可信度在能够生成欺骗性输出时受到威胁,本研究提出了一种方法来调查复杂的模型对模型的欺骗情景,并通过创建一个包含超过 10,000 个具有误导性的解释的数据集,发现当模型阅读这些解释时,它们都被显著欺骗,令人担忧的是,所有能力的模型都能成功地误导其他人,而能力更强的模型只稍微更擅长抵抗欺骗,因此建议开发检测和防御欺骗的技术。