Jun, 2024

对齐语言模型中的基本权衡及其与采样适配器的关系

TL;DR使用Reinforcement Learning through Human Feedback (RLHF)与probability-quality relationship方法,我们研究了语言模型对文字生成系统的影响,并提出了适应模型选择的采样适配器。