safety measures | BriefGPT - AI 论文速递

关键词safety measures

搜索结果 - 16

地下停车场可靠安全的占据栅格预测研究
本研究通过使用 CARLA 的仿真平台，创建了基于实际情况的停车场模型以收集数据，然后用占据格网络处理该数据以预测车辆路径和障碍物，从而增强自主驾驶系统在复杂室内环境的感知能力，最终提高自主停车操作的安全性。研究结果表明，所提出的策略成功地
PDF2 days ago
多语言对齐棱镜：调和全球和本地偏好以减少伤害
在不同语言和文化偏好的非均质集合中优化全球和局部危害，同时解决 “对齐到什么” 的问题，本文研究了不同对齐方法的可行性，通过收集人工标记的红队测试提示生成了全球和局部危害的新的数据集，建立了开创性的对齐技术的先例，在 6 种语言中保持了一般
PDF8 days ago
Jill Watson：由 ChatGPT 提供支持的虚拟教学助理
介绍了一款名为 Jill Watson 的基于 ChatGPT 的对话式虚拟教学助手，采用模块化设计，能处理多个大型文档，通过比较分析表明该系统在性能上优于传统基于知识的 Jill Watson 和 OpenAI Assistants 服务
PDF2 months ago
学会看但忘记跟随：视觉指令调整使 LLMs 更容易遭受越狱攻击
研究通过图像理解扩展大型语言模型（LLMs）已经产生了高性能的视觉语言模型（VLMs）。虽然研究 LLMs 与人类价值观的一致性已经得到了广泛的关注，但 VLMs 的安全性却未受到同样的关注。本文探讨了越狱对三种最先进的 VLMs 的影响，
PDF2 months ago
用于克服扩散模型中概念抑制的概念算术
通过结合多个提示进行图像生成的分散模型的构成性属性在本文中被利用，提出了对安全措施的攻击方法，并讨论了该发现对安全模型部署的影响。同时，也开启了对分散模型的概念算术和组合推理对安全机制的讨论。
PDF2 months ago
潜在的守卫：一种用于文本到图像生成的安全框架
通过在文本与图像生成模型的文本编码器上学习潜空间，Latent Guard 提出了一种用于改进文本与图像生成中安全性措施的框架，能够检测输入文本嵌入中存在的有害概念。
PDF3 months ago
道路工作区增强现实警示：评估模态对工人反应时间的影响
提高工地工人的道路工区安全措施对于日益老化的公路基础设施以及工区数量的增加具有迫切需求。本研究旨在通过对不同组合的多模态增强现实警告对工人反应时间的影响进行广泛分析，改善道路工区的安全措施。通过在真实环境和虚拟现实环境中模拟道路工区的特殊条
PDF3 months ago
评估人工智能中预测可靠性以建立信任 —— 以多发性硬化为案例研究
应用人工智能（AI）和机器学习（ML）在关键领域，如医学，需要实施安全措施，以降低预测错误带来的风险。本研究提出了一种评估 ML 预测可靠性的方法，该方法旨在通过检测 ML 失败来提供对临床决策的决策支持，并开发了一个名为 relAI 的
PDF4 months ago
探索大型语言模型的对抗能力
调查了大型语言模型（LLMs）是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施，实验结果表明，LLMs 成功地找到了对抗性扰动，有效地破坏了仇恨言论检测系统，这对依赖 LLMs 的（半）自主系统与现有系统和安全措施的交互带来了重
PDF5 months ago
将保障放在自治之上：LLM 代理在科学中的风险
通过全面考察科学领域的基于大语言模型的智能 Agent 的漏洞，找出潜在的风险、强调对安全措施的需求，以及提出人工监管、Agent 对齐、环境反馈三元框架来缓解风险，还强调了目前保护科学 Agent 的限制和挑战，并呼吁针对这些问题制定改进
PDF5 months ago
GUARD：通过角色扮演生成自然语言越狱以测试大型语言模型的指南遵循性
使用角色扮演系统结合知识图谱生成监狱破解方法，验证 LLMs 对监管规定的遵从性，并在不同模态下展示 GUARD 的多样性和对更安全可靠的 LLM 应用的有价值见解。
PDF5 months ago
自动驾驶数据集上的离群样本检测性能评估
通过应用基于最可能的类条件高斯分布的 Mahalanobis 距离作为 OOD 分数来评估拒绝语义分割 DNN 的输出，该研究发现即使在未知数据集上应用，也可以显著降低分类风险，但会以像素覆盖率为代价。这些发现的适用性将有助于合法化安全措施
PDF5 months ago
大型语言模型中学习和遗忘不安全示例
即使在第三方定制微调数据中学习不安全内容，大型语言模型（LLMs）也可以采用 “遗忘过滤器” 算法过滤不安全的数据，确保安全，同时不影响后续任务性能。
PDF6 months ago
基于图的预测与规划策略网络（GP3Net）在动态环境中使用深度强化学习进行可扩展的自动驾驶
在非固定驾驶环境中，提出了一种基于深度图预测和规划策略网络（GP3Net）框架，该框架通过编码交通参与者之间的相互作用以及提供 AV 的安全操纵决策来预测未来的动态路径，进而提高自动驾驶车辆的安全性能。
PDF7 months ago
查询相关图像：大型多模态模型越狱
我们用一种新的视觉提示攻击方法，通过利用与查询相关的图像来越狱开源的大型多模型模型 (LMMs)。我们的研究表明，即使采用了安全对齐的大型语言模型，我们的方法也能轻松攻击 LLMs。通过使用我们提出的攻击技术，我们编制了一个大规模数据集，评
PDF7 months ago
暗影对齐：篡改安全对齐语言模型的容易程度
开源大型语言模型（LLMs）的安全性需要加固以防止恶意攻击，本研究通过引入 Shadow Alignment 概念，展示了仅利用少量数据即可使安全对齐的 LLMs 适应有害任务而不损害其帮助性，并通过实验证明这种攻击的有效性及其跨不同模型和
PDF9 months ago