Jun, 2024

AI 取分策略:语言模型在评估中可以有意地表现不佳

TL;DRAI 系统的可信能力评估对于确保其安全至关重要并成为 AI 法规的关键组成部分;然而,开发者或 AI 系统本身可能会有压低评估结果的激励,这导致了 “故意在评估中表现较差” 的问题;本文评估了现代语言模型的故意表现较差能力,并发现在特定密码的条件下模型可以隐藏特定能力,进一步表明评估存在安全漏洞,削弱了对于先进 AI 系统开发和部署的重要安全决策的可信度。