BriefGPT.xyz
Ask
alpha
关键词
metarm
搜索结果 - 1
MetaRM: 通过元学习实现偏移分布对齐
利用元学习来解决环境分布变化引起的强化学习中奖励模型难以区分响应以及难以泛化到新例子的问题。
PDF
2 months ago
Prev
Next