May, 2024

MetaRM: 通过元学习实现偏移分布对齐

TL;DR利用元学习来解决环境分布变化引起的强化学习中奖励模型难以区分响应以及难以泛化到新例子的问题。