CAISAR: 评估人工智能安全与鲁棒性的平台
本文提出了两个新的软件库,即hydra-zen和rAI-toolbox,这两个库旨在解决对负责任的人工智能工程的关键需求,包括使复杂的AI应用程序可配置,并使它们的行为可复现,以及以可扩展的方式评估和增强AI模型的鲁棒性。
Jan, 2022
本文介绍了大语言模型(LLMs)在人工智能领域的应用。主要探讨了LLMs的安全性和可靠性问题,并对经典软件和深度学习模型如卷积神经网络的验证和验证技术进行了综述和扩展,以提供对LLMs及其应用程序的安全性和可靠性的严格分析。
May, 2023
通过定义 CONFIDERAI 作为规则模型的新评分函数,本文提出了一种将符合性预测与可解释机器学习相结合的方法,通过利用规则的预测能力和点在规则边界内的几何位置。同时,通过采用支持向量数据描述(SVDD)来控制非符合样本数量,解决了在特征空间中定义满足符合性保证的区域的问题。该方法在基准数据集和真实数据集(如 DNS 隧道检测或心血管疾病预测)上得到了有希望的结果。
Sep, 2023
欧盟人工智能法案草案及伴随的标准化努力对人工智能系统的符合评估存在问题,不考虑实际的功能可信度和责任归属,而可靠的功能可信度评估应该是符合评估的核心。
Oct, 2023
在将大型语言模型整合到社会中时,对一套提示的鲁棒性越来越重要,以确保在高差异环境中保持可靠性。本文提出了ASSERT(自动化安全场景红队演练),包括三种方法:语义对齐增强、目标引导和对抗性知识注入。为了进行鲁棒安全评估,我们将这些方法应用于AI安全关键领域,以算法生成一套涵盖多样的鲁棒性设置的测试提示。我们将提示分为四个安全领域,以对领域如何影响模型性能进行精细分析。尽管现有最先进模型具有专用的安全措施,但我们发现在语义相关场景中,绝对分类准确率存在高达11%的统计学显著性差异,零样本对抗设置中的错误率高达19%的绝对误差,给用户的身体安全带来了担忧。
Oct, 2023
通过检查以测试为基础的验证和验证作为最实用的方法,并总结当前先进的方法学,在确保学习能力的 CPS 的形式安全方面,确定了当前测试方法的局限性,并提出了从基础概率测试过渡到更严格方法的路线图,以提供正式保证。
Nov, 2023
介绍了构建、训练和使用可靠的人工智能软件开发助理的整体架构,其中包括基于真实编码场景和复杂软件架构进行训练的LLM,利用基于图形的代码表示进行高级语义理解,整合知识图谱以提供最新背景知识,并通过模块化的解码框架确保生成代码的正确性和安全性。
Dec, 2023
本研究综述了值得信赖的人工智能(TAI)及其各种定义,提出了离开支配和工程语境中的责任或伦理人工智能等术语以明确任何混淆的建议,并强调了公平性、偏见、风险、安全性、可解释性和可靠性等关键属性和特性以发展一个普遍框架来处理这些问题,同时考虑了欧盟、中国和美国在AI领域的政策和法规以及跨国公司面临的调整挑战,提出了一个新的框架SFMA来执行TAI和规范化措施,同时警示过度规制对TAI和技术创新可能造成的危害。
Mar, 2024
本章探索了机器学习(ML)中鲁棒性的基本概念及其在建立可信人工智能(AI)系统中的关键作用。讨论从详细定义鲁棒性开始,描绘了ML模型在各种意外环境条件下保持稳定性能的能力。通过不同视角剖析ML鲁棒性:与泛化能力的互补性,作为可信AI的要求,对抗性与非对抗性方面,定量评价指标,以及可重复性和可解释性等指标。本章深入探讨了影响鲁棒性的因素,如数据偏差、模型复杂性和不规范的ML流程的陷阱。从广泛的角度调查了鲁棒性评估的关键技术,包括对抗性攻击,包括数字和物理领域。它还涵盖了非对抗性数据转移和深度学习(DL)软件测试方法的细微差别。讨论进一步探索了增强鲁棒性的改进策略,从以数据为中心的方法如去偏和增强开始。进一步的研究包括各种以模型为中心的方法,如迁移学习、对抗训练和随机平滑等。最后,讨论了训练后方法,包括集成技术,修剪和模型修复,作为提高模型对不可预测因素的适应性的经济有效策略。本章强调现有方法对ML鲁棒性的估计和实现所面临的挑战和局限性,并为未来关于这一关键概念的研究提供了洞见和方向,作为可信AI系统的先决条件。
Apr, 2024
通过世界模型、安全规范和验证器的相互作用,提出了一系列保证安全的人工智能(AI)方法,旨在为AI系统提供高保证的量化安全保证,并描述了核心技术挑战和潜在解决方案。
May, 2024