Apr, 2023
CONSCENDI:一种对比和场景引导的蒸馏方法,用于虚拟助手的护栏模型
CONSCENDI: A Contrastive and Scenario-Guided Distillation Approach to Guardrail Models for Virtual Assistants
Albert Yu Sun, Varun Nair, Elliot Schumacher, Anitha Kannan
TL;DR本文研究使用 GPT-4 的训练数据和蒸馏方法,探索了一种称为 CONSCENDI 的守护模型,用于监控虚拟助手的输出,以保持其输出符合设计规则,提供了一种新方法以生成更多样化的违规训练数据。研究表明,使用 CONSCENDI 得到的守护模型比基础模型表现更好。