Oct, 2023

构建大型语言模型与多样反馈的一致性对齐

TL;DR通过引入构造性和多样化反馈(CDF)方法,本研究旨在提高大型语言模型(LLMs)与人类价值的一致性,并借鉴建构主义学习理论。通过收集针对不同难度级别问题的三种不同类型的反馈,即批评反馈、优化反馈和偏好反馈,训练模型达到了更好的一致性表现。CDF 方法在问答、对话生成和文本摘要等三个下游任务中展现了卓越的性能,且仅需较小的训练数据集。