Mar, 2024

一种基于人工比较的概率对齐方法

TL;DR探究人类比较对传统监督微调过程的改善条件,提出一种连接机器学习和人类反馈的两阶段框架,并利用概率二分法通过学习低维表示和使用人类比较来改善模型对齐,进而减少样本复杂度,实验证明该框架在降噪数据和高维模型中的优势。