BriefGPT.xyz
Ask
alpha
关键词
toxic outputs
搜索结果 - 2
DESTEIN: 通过通用导航对偶和头部激活融合实现语言模型的过滤式导航
该研究提出了 DeStein,一种通过调整激活空间内的内部表示来净化语言模型的新方法,该方法在资源和时间成本较低的情况下实现了混合解毒向量和原始表示,实证结果表明该方法在常用的解毒评估指标上明显优于现有的最先进方法,并保持了令人满意的生成质
→
PDF
3 months ago
平衡增强、无害性和通用能力:通过直接 RLHF 提高对话式 LLMs
通过采用无害的来自人类反馈的强化学习方法,我们绕过了监督微调,直接应用于 Mistral,从而创建了 Mistral-Plus,它不仅保留了基础模型的通用能力,还显著增强了其对话能力,并大幅减少了有毒输出的生成。
PDF
4 months ago
Prev
Next