Nov, 2023

高效基于奖励引导的大型语言模型集成的专家路由

TL;DR利用 Zooter 方法,我们可以通过挖掘隐含的专业知识和使用奖励模型炼取奖励,实现分配每个查询到相应专业领域的大型语言模型的精确分布,以提高性能并降低计算开销。