Feb, 2024

利用领域知识进行 RLHF 中的高效奖励建模:电子商务舆论总结的案例研究

TL;DR通过将领域知识融入奖励模型,减少人类偏好注释的规模,并在电子商务意见摘要任务中取得了显著的数据集规模减小幅度(仅为 940 个样本),并推动了最新技术的进步,从而提出了一种新颖的奖励模型技术,一个用于意见摘要的新数据集(PromptOpinSumm)和一个人类偏好数据集(OpinPref)。本文提出的方法为高效的人类反馈加强学习打开了新的机会,使其更适用于具有不同人类价值观的多样化应用。