Jun, 2019

高级机器学习系统中学习优化的风险

TL;DR本文分析了当学习模型(例如神经网络)本身是优化器时所发生的学习优化类型,称之为 mesa-optimization。我们认为,mesa-optimization 的可能性对于先进机器学习系统的安全性和透明度提出了两个重要问题。第一,什么情况下学习模型会成为优化器,包括不应成为优化器的情况?第二,当学习模型是优化器时,它的目标将是什么,它将如何不同于它所训练的损失函数,如何进行对齐?本文对这两个主要问题进行了深入分析,并提供了未来研究的主题概述。