Apr, 2025

可扩展监督的规模法则

TL;DR本研究针对可扩展监督在监督更强人工智能系统中的有效性缺乏定量分析的问题,提出了一种量化成功监督概率的框架。通过建模能力不匹配的监督者和被监督者之间的博弈,本研究揭示了不同能力级别的系统在监督过程中的表现,并研究了嵌套可扩展监督的条件,表明当监督者和被监督者能力差异较大时,监督成功率会显著下降。