Apr, 2023

大型语言模型中对齐的基本限制

TL;DR本文提出了一种名为行为期望范围(BEB)的理论方法,用于正式研究大型语言模型对齐的几种固有特性和限制,揭示了LMM对齐的根本局限性,并凸显了确保AI安全的可靠机制的必要性。