Aug, 2024

使用异构反馈微调大型语言模型的框架

TL;DR本研究旨在解决传统反馈数据集在收集困难、范围有限和样本质量不一的问题。提出的框架将不同类型的反馈数据整合为统一的监督格式,并从中提取高质量、多样化的子集,从而显著提升模型性能,尤其在指令执行和偏见减少方面表现出色。