safety concerns | BriefGPT - AI 论文速递

关键词safety concerns

搜索结果 - 25

您的高精地图构建器在传感器异常下是否可靠？
这项工作介绍了 MapBench，它是第一个旨在评估高清地图构建方法对各种传感器损坏的鲁棒性的全面基准。我们的基准包括来自相机和 LiDAR 传感器的共 29 种类型的损坏。对 31 种高清地图构建方法进行的广泛评估揭示了在恶劣天气条件和传
PDF16 days ago
大语言模型的单次安全对准
将安全限制与人类偏好对齐的计算方法，通过预优化光滑凸函数，消除了原始 - 对偶策略迭代的繁琐过程，大大降低了计算负担和提高了训练稳定性。
PDFa month ago
扩散策略攻击者：针对基于扩散的策略的制造对抗攻击
基于扩散模型的行为克隆，探讨扩扩散策略的安全问题，引入对抗攻击场景，构建 DP-Attacker 算法套件，对各种攻击场景下的预先训练的扩散策略进行实验攻击，证明 DP-Attacker 具有显著降低 DP 成功率的能力。
PDFa month ago
自主强化学习智能体中的欺骗行为：立法中的非传统兔帽戏法
支持大型语言模型的最新发展引发了人们对其及基于其上构建的自治代理的安全性关注。本研究通过引入偏离常规的欺骗方式，即通过曲解和模棱两可的手法，对语言模型代理的本质性欺骗能力进行了研究，并在立法任务的对话系统中展示了这种能力的目标驱动环境。通过
PDF2 months ago
重新定义自动驾驶车辆的安全性
在部署自动驾驶车辆并获得实践经验后，有必要重新审视现有的计算机系统安全的定义和相关概念框架。当前工业安全标准所使用的术语强调对具体识别出的风险进行缓解，并假设基于人类监督的车辆操作。然而，无人驾驶模式极大地增加了安全问题的范围，特别是在开放
PDF2 months ago
CVPROOSTraj: 视觉定位去噪下的隐形轨迹预测
通过利用视觉定位技术，我们提出了一种新的方法来预测失去视线的轨迹，该方法能够在无监督的情况下去噪传感器观测，并将基于传感器的轨迹精确映射到视觉轨迹。该方法在失去视线的噪声传感器轨迹去噪和预测方面展示了最先进的性能，在 Vi-Fi 和 JRD
PDF3 months ago
深入学习的安全多智能体强化学习中的模型预测控制
基于深度学习的模型预测控制方法被提出，以解决安全多智能体强化学习中存在的复杂多智能体环境动力学问题，该方法在解决多智能体系统的安全问题方面取得了显著进展。
PDF4 months ago
GuardT2I：保护文本到图像模型免受对抗性提示攻击
通过使用生成方法增强文本到图像模型的鲁棒性，GuardT2I 框架在对抗性场景下显著优于 OpenAI-Moderation 和 Microsoft Azure Moderator 等商业解决方案。
PDF4 months ago
高速公路自动驾驶车辆的自适应应激测试新框架
我们提出了一个基于自适应压力测试方法的新框架，用于系统地探索可能导致安全问题的角落案例，以提高自动驾驶汽车的安全性和可靠性。
PDF4 months ago
通过潜意识利用和外部反映实现对 LLMs 的快速破解优化
通过 RIPPLE 方法，我们展示了对大型语言模型进行有效攻击的可能性，它涉及到大型语言模型的安全问题以及心理概念的应用。
PDF5 months ago
安全多模学习系统调查
对于多模态学习系统（MMLS），缺乏系统性的安全性研究已成为其发展的重大障碍。本文提出了首个 MMLS 安全性分类法，并从四个关键方面深入探讨了其安全性问题及现有研究的限制，最后指出了 MMLS 安全性面临的独特挑战和未来研究的潜在方向。
PDF5 months ago
文本到图像模型中的危害放大
我们的研究论文使用形式化定义 “harm amplification”，并开发了量化伤害扩大的方法，旨在解决 Text-to-image 模型中的安全问题，并在实际部署场景中检验了不同方法的效果，包括伤害扩大对不同性别的差异影响。
PDF5 months ago
捍卫的艺术：LLM 防御策略在安全和过度防御上的系统评估与分析
该研究通过提供一个名为 SODE 的评估基准，研究了大型语言模型的安全性和过度防御性。通过比较分析多种 LLM 防御策略，发现了一些重要的发现，例如自我检查技术虽然能改善对不安全输入的安全性，却会在安全输入上过度防御；提供安全指示和上下文示
PDF6 months ago
伪对齐：LLMs 真的对齐良好吗？
该研究探讨了大型语言模型的安全性问题，并指出其在多项选择问题和开放性问题之间性能存在显著差异，可能是由于不完全理解安全概念导致了虚假的对齐现象。为了解决这个问题，引入了 FAEF 框架和两个新的指标，Consistency Score (C
PDF8 months ago
大规模语言模型中的多语言越狱挑战
大型语言模型（LLMs）存在潜在的安全隐患，因此需要发展预防措施。本研究揭示了 LLMs 内存在的多语言破解挑战，并针对意外和恶意的风险场景进行了探讨。实验结果显示，在多语言环境中，通过自卫框架进行训练可以显著减少 LLMs 生成的不安全内
PDF9 months ago
SafetyBench: 用多项选择题评估大型语言模型的安全性
以 SafetyBench 为基础，该研究设计了一个综合评估大型语言模型安全性的基准测试工具，包括 11435 个不同类别的问题，并能够提供两种语言（中文和英文）的评估结果，通过测试发现 GPT-4 在安全性方面相较于其他模型表现突出，但当
PDF10 months ago
自动驾驶感知中的深度学习安全问题
近期深度学习领域的进展以及深度神经网络对感知任务取得的出色表现，引发了在自动驾驶系统中使用它们的需求。为了系统地保证基于深度神经网络的自动驾驶系统的安全性，本文引入了一种称为安全关注的结构化元素，扩展和完善了其概念，并引入了额外的分类，以促
PDF10 months ago
中国大型语言模型的安全评估
为了进一步推动大型语言模型的安全部署，我们开发了一个中文 LLM 安全评估基准。我们的基准从八种典型的安全场景和六种更具挑战性的指令攻击等两个方面探索了 LLMs 的综合安全表现，并对 OpenAI GPT 系列和其他知名的中文 LLMs
PDFa year ago
深度神经网络在交通标志识别中的物理对抗攻击：可行性研究
本文研究通过不同攻击方法，包括黑盒攻击，来制造可以用于在不同环境中欺骗系统的扰动，并展示可靠的物理对抗攻击可以使用不同的方法进行执行，同时也可以降低扰动的可察觉程度。该发现强调了即使在黑盒情况下，需要通过可行的方法保护 DNN 的需求，同时
PDFa year ago
安全关键控制的自适应聚合
本文提出了一个自适应聚合框架，用于处理强化学习中的安全性问题。通过聚合多个源任务和目标任务来学习传输安全知识，并通过利用保障来分离提高任务绩效和减少约束违规的目标。实验结果表明，与几种基线相比，我们的算法可以实现更少的安全违规，同时显示更好
PDFa year ago