Jun, 2024

基于机器反馈的强化学习器改写不当论证的 LLM

TL;DR通过基于强化学习的重写方法,平衡内容保留和恰当性,该研究通过评估不同的奖励函数权重方案,证明可以在很大程度上改善争论的不适当性,而且胜过其他竞争对手基线模型。