model safety | BriefGPT - AI 论文速递

关键词model safety

搜索结果 - 10

大型语言模型是不自觉的说真话者：利用谬误失误进行越狱攻击
语言模型在生成虚假和欺骗性推理时存在困难。我们提出了一种越狱攻击方法，通过利用这一缺陷来获取一个具有恶意输出的对齐语言模型。我们的方法在五个安全对齐的大型语言模型上进行了评估，与四种以前的越狱方法进行了比较，展示了竞争性能和更多有害的输出。
PDF5 days ago
隐蔽恶意微调：保护 LLM 适应性中的挑战
使用黑盒微调接口可以根据用户需求对最新的语言模型进行适应性调整，但此类访问可能使恶意行为者危害模型安全。为了证明防御微调接口的挑战，我们引入了隐蔽恶意微调方法，通过微调方法来危害模型安全并且躲避检测。我们的方法构建了一个恶意数据集，其中每个
PDF8 days ago
提问者是谁？用户人设与潜在不一致的机制
我们的研究揭示了现象的运作机制，发现模型的安全性调优仍存在潜在的错位能力，尽管已经进行了提高。我们证明了即使模型的生成是安全的，有害内容仍然可以存在于隐藏表示中，并且可以通过从较早层进行解码来提取。我们还发现，模型是否泄露此类内容在很大程度
PDF19 days ago
安全算法：通过控制参数和激活函数在测试时间对齐语言模型的安全性
安全算术是一种训练 - free 的框架，可提高大型语言模型在不同场景下的安全性，通过避免有害内容和促进安全响应来确保模型的安全性，实验证明安全算术在确保生成安全内容方面优于现有方法。
PDF19 days ago
PRISM: 开源基础模型安全的设计框架
在开源基础模型的快速发展中，模型安全性问题变得尤为重要。本研究提出了 PRISM 框架，该框架强调私密性、鲁棒性、独立性和计算成本最小化，并通过识别使用政策违规行为，与开发者共同建立安全设计决策的共识，为创建最大化技术潜力并最小化个人和整个
PDF22 days ago
闭眼，安全已开启：通过图像到文本转换保护多模态 LLMs
通过 ECSO (Eyes Closed, Safety On) 方法，利用 MLLMs 的内在安全意识，将不安全的图像自适应地转换为文本以激活 MLLMs 中预先对齐的 LLMs 的内在安全机制，从而显著提高模型的安全性，并能用作数据引擎
PDF4 months ago
InSaAF：通过准确性和公平性加强安全性 | LLM 是否准备好进入印度法律领域？
近年来，语言技术和人工智能的最新进展在法律领域提出了众多语言模型，从预测判决到生成摘要等多种任务。本研究探讨了大规模语言模型（LLMs）在印度社会因素参与的法律任务中的能力。我们提出了一种新的度量标准，即加权法律安全评分（$LSS_{et
PDF5 months ago
撒下风，收获飓风：编辑语言模型的影响
人工智能领域中，大型语言模型的红队测试或越狱概念成为一项关键研究领域，本文通过模型编辑的方式调查了这种修改的复杂后果，并揭示了在提高模型准确性和保护伦理完整性之间存在的复杂关系。研究发现，注入准确信息对模型的可靠性至关重要，但却可能不可预测
PDF6 months ago
Safer-Instruct: 与自动偏好数据对齐的语言模型
Safer-Instruct 是一种半自动构建大规模偏好数据集的新型流程，利用反向指令调整、指令归纳和专家模型评估，高效生成高质量的偏好数据，改善模型安全性并在会话和下游任务上保持竞争性能。
PDF8 months ago
通过激活聚类检测深度神经网络的后门攻击
本文提出了一种新的神经网络后门检测和修复方法，经过广泛的实验结果证明了其对文本和图像分类的有效性。该方法是针对机器学习训练数据可能不可信，恶意攻击者可能通过植入精心制作的样本来攻击系统的现实情况，是首个不需要可验证和可信数据集即可检测和修复
PDF6 years ago