Sep, 2024

基于迭代自我训练的半监督奖励建模

TL;DR该研究解决了传统奖励模型训练中对大量人工标注数据依赖的问题。提出的半监督奖励建模(SSRM)通过利用未标记数据,通过伪标注、高置信度示例选择和监督微调三个迭代步骤来增强模型训练。研究表明,SSRM在无需额外标注成本的情况下,能显著提升奖励模型的性能,尽可能减少对人工标注数据的依赖。