Mar, 2024

DMoERM:混合专家模型的有效奖励建模方法

TL;DR通过在奖励模型中引入 Mixture-of-Experts (MoE) 思想,我们提出了一种新的 Double-Layer MoE RM (DMoERM) 模型,该模型在任务分类和能力维度上的精细调优方面表现出卓越的性能,并超越了先进的生成方法。