Sep, 2023

具有专家反馈的上下文学习用于可解释风格转移

TL;DR提出通过向 ChatGPT 模型蒸馏来改进形式转换数据集的解释性,进一步使用以上下文学习为基础的 ChatGPT 作为评论者来整合稀缺的专家人工反馈以提炼生成的解释。使用此数据集表明当前分发的模型在形式转换任务上表现不佳,而在我们的高质量数据集上进行微调可以显著改进,同时在人类评估中显示出比 ChatGPT 小得多的模型更好地与专家偏好一致。最后,讨论了在解释性的形式转换任务上进行微调的模型的两个潜在应用:可解释的作者验证和对 AI 生成文本检测器的可解释的对抗攻击。