Feb, 2024

关于机器学习后门检测作为一种假设检验问题的 (不) 可行性

TL;DR我们引入了一个形式化的统计定义,用于分析机器学习系统中后门检测问题的可行性,为我们的定义的实用性和适用性提供了证据。我们的工作的主要贡献是后门检测的一个不可能性结果和一个可实现性结果。我们证明了一项无饭票定理,证明了通用(无敌手意识)的后门检测是不可能的,除非字母表很小。因此,我们认为后门检测方法需要明确或隐含地具有对敌手的意识。然而,我们的工作并不意味着后门检测在特定情况下无法工作,正如科学文献中成功的后门检测方法所证明的那样。此外,我们将我们的定义与确定近似正确(PAC)学习的超出分布检测问题联系起来。