BriefGPT.xyz
Ask
alpha
关键词
toxic responses
搜索结果 - 3
ICLR
大型语言模型的好奇心驱动的红队扮演
通过好奇心驱动的红队(CRT),我们提出了一种自动生成测试用例的方法,以增加生成的测试用例的覆盖范围,并成功地从经过重度优化以避免有害结果的 LLaMA2 模型中引发有害回应。
PDF
4 months ago
从挫折中获益:通过错误分析对齐大型语言模型
通过暴露大型语言模型存在的缺陷输出并进行彻底评估,该研究提出了一种根据错误分析的新型对齐策略,以完全理解其内部原因,并将有害回应转化为模型对齐的指令调整语料库,从而不仅使 LLMs 不再产生有缺陷的回应,还可训练其自我批评,并利用其判别有毒
→
PDF
9 months ago
DIRECTOR:用于监督语言建模的生成器 - 分类器
本文介绍了一个新的基于统一生成器 - 分类器框架的 Director 语言模型,该模型结合语言建模和分类学习,并使用包括有利和不利序列标记的数据进行训练,实验证明该模型相较于标准语言模型可以大幅减少毒瘤响应、重复性、矛盾等问题,在保持生成质
→
PDF
2 years ago
Prev
Next