Jun, 2024

正则化隐藏状态实现学习面向通用化奖励模型的长期记忆模型

TL;DR基于规则模型的泛化能力有限,而本研究提出了一种新颖的方法来增强奖励模型对分布偏移的泛化能力,并有效减轻强化学习反馈中的过优化问题。