Apr, 2023

CONSCENDI:一种对比和场景引导的蒸馏方法,用于虚拟助手的护栏模型

TL;DR本文研究使用 GPT-4 的训练数据和蒸馏方法,探索了一种称为 CONSCENDI 的守护模型,用于监控虚拟助手的输出,以保持其输出符合设计规则,提供了一种新方法以生成更多样化的违规训练数据。研究表明,使用 CONSCENDI 得到的守护模型比基础模型表现更好。