BriefGPT.xyz
Ask
alpha
关键词
reinforcement learning from reflective feedback
搜索结果 - 1
ACL
通过细粒度自我反思实现强化学习(RLRF):对齐和改进 LLMs
通过利用细致的反馈基于详细准则来改进 LLMs 的核心能力,我们提出了一种新颖的框架:反思性反馈强化学习。RLRF 采用自我反思机制来系统地探索和改进 LLM 的回答,并通过与有希望的回答一起使用 RL 算法来微调模型。我们在 Just-E
→
PDF
4 months ago
Prev
Next