Mar, 2024

平衡增强、无害性和通用能力:通过直接 RLHF 提高对话式 LLMs

TL;DR通过采用无害的来自人类反馈的强化学习方法,我们绕过了监督微调,直接应用于 Mistral,从而创建了 Mistral-Plus,它不仅保留了基础模型的通用能力,还显著增强了其对话能力,并大幅减少了有毒输出的生成。