- 扩散模型中的强鲁棒概念擦除修剪
通过选择性修剪与要移除的概念相关的关键参数,改进了概念擦除技术的稳健性,并通过抵抗对抗性输入的实验结果证明了显著改进
- SemEval-2024 任务 2:临床试验安全的生物医学自然语言推理
提出 SemEval-2024 任务 2:用于临床试验的安全生物医学自然语言推理,旨在挑战大语言模型在干预和因果推理任务方面的能力,并提供方法和结果的全面评估,以促进医疗保健领域中自然语言推理模型的鲁棒性和适用性,确保在临床决策中更安全可靠 - 深度强化学习中对抗输入的分析
通过正式验证的视角,我们对敌对输入的特征进行了全面分析,提出了一种新的指标 —— 敌对率,用于划分模型对此类扰动的敏感性,并提供了计算该指标的一系列工具和算法。我们的分析在实证上展示了敌对输入如何影响给定深度强化学习系统在敏感性方面的安全性 - No-Skim: 针对基于略读的语言模型的效率鲁棒性评估
为了降低大型语言模型中的运算成本和能源消耗,本论文提出了一种名为 No-Skim 的通用框架,以帮助基于打桩的语言模型所有者了解和度量其加速方案的强健性,并通过搜索最小且不易察觉的字符级和标记级失真生成对抗性输入,从而增加剩余标记比率,进而 - 自然语言处理健壮性中的胜利回声间传来的疑虑
NLP 中的鲁棒性问题仍未解决,对模型鲁棒性的评估方法也需要重新评估。
- 利用自然语言解释提高自然语言推理的上下文学习鲁棒性
通过加上自然语言解释,人工智能模型在各种任务中有了显著提升,但在遇到对抗性输入时,效果下降。本文研究了如何通过加入自然语言解释来提高模型对七个对抗性和具有挑战性的自然语言推理数据集的鲁棒性,并提出了 ChatGPT 的几个人工生成的自然语言 - LLM 能否遵循简单规则?
大型语言模型在现实世界中的部署责任越来越重,为了能够可靠地指定和约束这些系统的行为,需要评估模型遵循开发者提供的规则的能力以及其面对对抗性输入的脆弱性。为此,我们提出了一种评估大型语言模型规则遵循能力的编程框架,并通过对模型行为的手动探索和 - SmoothLLM: 对抗越狱攻击的大型语言模型防御
为了解决大型语言模型在破解攻击中的脆弱性,提出了 SmoothLLM 算法,通过对输入的随机扰动和聚合进行检测,降低了攻击成功率,并在攻击缓解上提供了可证明的保证。
- 压缩深度学习模型对抗鲁棒性基准测试
对于基础模型在受挫折性输入下的修剪版本的影响进行了研究,发现在提升普适性、压缩和更快的推断时间方面,模型压缩虽然具有其独特的优势,但不会削弱对抗性鲁棒性。
- URET: 通用鲁棒性评估工具包(用于规避)
我们提出了一个新的框架,可以生成不同输入类型和任务领域的语义正确和功能性对抗性输入,并展示了生成对抗性示例的重要性以便部署缓解技术。
- 突触可塑性模型与生物启发的无监督深度学习:综述
最近基于深度学习的新兴技术在人工智能领域的各种任务中取得了卓越的结果,然而,它们面临着对抗性输入、生态影响以及需要大量训练数据等多个挑战。作为回应,研究人员越来越关注生物基础的机制,因为生物大脑所展示的惊人能力具有吸引力。本调查研究探讨了一 - gRoMA:测量深度神经网络全局鲁棒性的工具
该论文介绍了一种名为 gRoMA 的新型可扩展工具,运用统计方法来形式化衡量 DNN 的全局分类稳健性 —— 即特定输出类别遇到对抗性输入的随机概率,并测试了其在 CIFAR10 数据集上的可扩展性和应用潜力,结果发现在不同输出类别上 DN - 指导卷积神经网络针对对抗输入进行重新训练
研究寻求最佳指引指标和优化数据集配置来提高卷积神经网络模型对抗性输入的准确性和资源利用率,通过实证研究发现,在使用惊奇充分度量作为指引度量进行重新训练时,通过使用原始权重和排序后的惊奇充分度量训练模型,可以在不使用大量输入的情况下改善模型对 - NMT 能理解我吗?朝着基于扰动的 NMT 模型代码生成评估的方向
本文研究了神经机器翻译在代码生成中的鲁棒性检验方法和评价指标,提出了一组针对性的扰动和度量方式以验证模型的稳健性。通过初步的实验评估,得出了哪种扰动最影响模型以及对未来研究方向的有用见解。
- ICML使用异常特征向量检测、分类和警告离群对抗样本
DeClaW 是一个可以检测、分类和警告分类神经网络中对抗性输入的系统,它可以从潜在特征中提取异常特征向量,以准确识别对抗攻击类型(例如 PGD、Carlini-Wagner 或清洁),初步发现表明该方法可以在 CIFAR-10 数据集上实 - AAAI对抗攻击归因:发现对抗机器学习攻击中的可归因信号
通过简单的监督式学习实验平台,发现在 CIFAR-10 和 MNIST 数据集中,可以区分使用不同攻击算法、模型和超参数生成的对抗攻击,并介绍了对抗攻击归因的概念。
- 利用 k 近邻表示解释和改善模型行为
使用 kNN 表示法来解释 NLP 模型的预测结果,发现其除了具有解释性外,还能揭示学习到的虚假关联,发现存在错误标记的例子,并提高模型的性能和抵御对抗攻击的能力。
- 深度强化学习的对抗状态不确定性可证明鲁棒性
本研究基于对认证对抗鲁棒性研究的探讨,为深度强化学习算法提供在线认证鲁棒性的防御机制。该方法通过计算阈值来确定最佳的行动方案以应对各种可能存在的敌对行为和噪声干扰,从而有效提高了系统的鲁棒性。
- 神经阅读理解过低敏感度
研究表明精度高的阅读理解模型倾向于依赖于所提供的有关输入中的模式,而对该模型进行噪声对抗性攻击、数据扩增和对抗性训练可以提高其鲁棒性和泛化性能,并改善在 train/evaluation distribution mismatch 时的结果 - 动态模型应对相关性攻击研究议程
描述了一项关于在测试时保护机器学习模型免受对抗性输入攻击的研究议程,建议使用动态模型作为解决这个问题的潜在方案。