toxicity reduction | BriefGPT

关键词toxicity reduction

搜索结果 - 12

多目标解码时间语言模型对齐
多目标解码算法（MOD）通过线性组合基础模型的预测结果，在不同目标权重下输出下一个标记，实现语言模型（LMs）对多样用户需求的适应性优化，实验证明其在奖励改进和有害性减少方面具有显著效果。
PDF8 days ago
DeTox: 模型编辑的有毒子空间投影
通过因子分析理论，引入无需调优的对齐替代方案（DeTox），该方案通过从模型的参数空间中检测出有毒子空间，通过投影方式去除检测到的子空间，从而减少模型的有毒性。我们证明了 DeTox 比 DPO 更加高效，并且对噪声数据具有更强的鲁棒性。最
PDFa month ago
微小的改进引发韧性：朝着高效的前缀模型抵御 LLM 红队行动
通过介绍基于 LLM 的哨兵模型，该论文提出一种即插即用的前缀模块，通过添加少量的 (<30) 令牌有效地减少目标 LLM 输出中的有毒内容，克服参数效率和模型可访问性的限制。我们采用交错训练方案，使用近端策略优化 (PPO) 来动态优化红
PDFa month ago
比对算法的机制性理解：以 DPO 和毒性为案例研究
本文研究了对齐算法、预训练语言模型、直接偏好优化、毒性减少和模型对齐等关键主题及研究领域，并提出了一种简单的方法来逆转模型的对齐，使其恢复其有毒行为。
PDF6 months ago
EMNLPGTA：门控毒性避免与语言模型性能保护
该研究探讨了以前方法的局限性，并介绍了一种新的解决方案：一种名为简单的门控毒性规避技术（GTA）可以应用于任何可控文本生成方法，通过与最先进的可控文本生成方法在各个数据集上进行比较，研究发现，门控毒性规避技术有效地实现了与原始可控文本生成方
PDF7 months ago
通过语言模型算术控制文本生成
使用模型算术，我们可以对大型语言模型进行组合和偏置，同时使得生成的文本具有更精确的控制，并且在毒性减少任务上表现优于现有技术。
PDF7 months ago
CRITIC：大型语言模型可通过工具交互式批评进行自我修正
该论文介绍了一种称为 CRITIC 的框架，旨在通过外部反馈来提高大型语言模型的性能和自我完善能力，具体包括对问题回答、代码合成和削减有害内容等方面的基准测试，而这种框架的作用类似于人类交互工具的方式。
PDFa year ago
学会不学习：聊天机器人生成安全的探索
本文提出了一种名为 LOT 的新框架，该框架采用对比损失来增强归纳推理模型对输入上下文的泛化能力，使生成的结果避免了不安全的信息，并在保持对话流畅性的情况下，有效地减少了毒性，同时保留了内容的魅力和流畅度。经实验证明，与基线模型相比，该方法
PDFa year ago
ACL预训练中添加指导：控制语言模型毒性的有效方式
本研究提出了两种新的预训练数据增强策略（MEDA 和 INST），可以显著降低模型的有毒内容，而不影响其实用性，进而证明我们的最佳策略（INST）可将模型毒性概率降低长达 61％，同时在五个基准 NLP 任务上保持准确性并将四个偏差检测任务
PDFa year ago
通过提示压缩和对比条件来控制和减少语言模型的可控性和毒性
研究压缩语言模型所需要的提示，表明即使是极端压缩，也可大量保留有关原始提示的抽象信息和一般态度，并可以用于解码时间算法以控制生成文本的可控性和毒性减少。
PDF2 years ago
探索域自适应训练对于大规模语言模型去毒化的极限
本文系统性地研究了领域自适应训练方法，利用语言模型的生成能力产生无毒数据集达到更高的数据效率，通过实验证明了自生成方法可以有效降低大型语言模型毒性，即使使用小得多的训练数据，也可以在自动和人类评估中优于现有的基线方法，并且提出了适配器层训练
PDF2 years ago
GeDi: 生成式判别器引导序列生成
本论文提出了一种名为 GeDi 的方法，通过引入更小的 LM 作为生成鉴别器以指导在大型 LM 上更安全和可控的生成。GeDi 计算每个标记的分类概率，以便于实现对生成的控制，并且可以使 GPT-2 在不影响语言质量的情况下显著降低毒性，同
PDF4 years ago