BriefGPT.xyz
Ask
alpha
关键词
supervised iterative learning from human feedback
搜索结果 - 1
SuperHF:基于人类反馈的监督式迭代学习
基于大型语言模型对齐的一种新方法 SuperHF,旨在解决安全性、人类价值的对齐以及训练稳定性方面的挑战。SuperHF 结合了 Supervised Fine-Tuning 和 Reinforcement Learning from Hu
→
PDF
8 months ago
Prev
Next