Sep, 2024

自我评估:选择性执行指令与对齐自我评估

TL;DR本研究解决了预训练大语言模型在执行人类指令时因测试时间数据分布变化而导致的准确性问题。提出的选择性指令执行方法依赖于训练判别模型来预测模型响应的质量,并通过自我评估框架Self-J来建立这些模型,避免了需要人工标注的质量分数。实验表明,该方法在多个开源模型中的表现优于强基线,并且在域间具有良好的泛化能力。