BriefGPT.xyz
大模型
Ask
alpha
关键词
harmful responses
搜索结果 - 4
对抗性对比解码:通过对立提示优化提高大型语言模型的安全对齐
应用于大型语言模型的安全对齐方法,无需对目标模型进行训练,采用对比解码技术以生成两个相对系统提示,从而有效提高其安全性能。
PDF
10 days ago
大型语言模型中的机器遗忘
机器遗忘是人工智能中的一个新领域,专注于解决在机器学习模型中有选择地遗忘或减少不良知识或行为的挑战,特别是在大型语言模型(LLM)的背景下。本文介绍了一种使用梯度上升算法对 LLM 进行对齐的方法,以便符合伦理、隐私和安全标准,并目标性地删
→
PDF
a month ago
通过话语链安全对齐红队大型语言模型
基于大型语言模型的安全性评估与对抗、生成有害回应的问题以及安全对齐的方法和模型研究。
PDF
a year ago
揭示对话系统中的个人偏见
本文研究了对话系统的人格偏见,并分析了不同社会阶级、性取向、种族和性别的人物角色。研究者提出将对话系统的角色升级到拥有更多人文特征以更好的迎合用户的趋势可能会产生一些偏见。他们还介绍了一个开源框架 UnitPersonaBias,以探索和聚
→
PDF
3 years ago
Prev
Next