Jul, 2023

欺骗性对齐监测

TL;DR大型机器学习模型的能力不断增长,其自主性也不断扩大,因此越来越重要的是对欺骗性对齐进行监控,我们提出了这一全新的方向,识别机器学习领域中新兴的方向,旨在发现欺骗性对齐现象,提出长期挑战和研究机会,并呼吁敌对机器学习社区更多地参与这些新兴方向。