ACLMar, 2024

IterAlign: 大型语言模型的迭代式结构对齐

TL;DR使用迭代自对准框架 IterAlign,通过红队测试自动发现和纠正大型语言模型的弱点,提出了一个数据驱动的基于宪法的自对准方法,能够显著改善大型语言模型的对齐性能。