Jul, 2024

基于路由机制的领域稳健轻量级奖励模型探索

TL;DR本研究解决了重训练单一奖励模型在不同领域中表现不佳的问题。提出了基于路由机制的领域特定小型语言模型的三种新方法,旨在优化奖励模型的使用和参数规模。实验结果表明,所提出方法在性能上可与基线方法匹敌,同时显著降低了总参数大小。