- ICMLMD 树:基于损失景观生长的模型诊断树
该论文提出了一种基于损失函数空间度量的模型诊断方法,通过预测故障源,解决了模型训练实验配置未知的情况下的分类问题,并在实践中验证了其优势。
- IJCAI历史重演:时间知识图谱预测的基础
基于历史知识图谱,通过预测重复事实,在预测未来时间步内的知识图谱的链接方面提出了一个直观的 TKG 预测基线,与大多数 TKG 模型相比,它需要较少的超参数调整和无迭代训练,并且能够帮助识别现有方法中的失败模式。与五个数据集上的 11 种方 - 潜在对抗性训练在未知故障模式中的防御
利用潜在对抗训练(LAT)来防御弱点,减少依赖生成激发输入的方法;通过对图像分类、文本分类和文本生成任务进行实验,LAT 通常在干净数据上提高了鲁棒性和性能,对于开发人员未明确识别的失效模式具备潜在应用前景。
- AtP*:一种将 LLM 行为局部化到组件的高效可伸缩方法
Activation Patching 是一种直接计算行为因果归因于模型组件的方法,但全面应用需要成本与模型组件数量线性增加,对于 SoTA 大型语言模型来说成本过高。我们调查了 Attribution Patching(AtP),这是一种 - 使用通用移动操纵器在现实世界中打开橱柜和抽屉
构建了一个端到端系统,使得一种移动机械手(Stretch RE2)能够在多样化的前所未见的真实环境中打开橱柜和抽屉,并通过四天的测试,在未见过的环境中成功率达到 61%,并分析了感知误差是主要挑战。
- 通过少样本 CLIP 辅助扩散生成来识别和减轻模型失效
这项研究通过结合大型语言模型(ChatGPT)和视觉语言深度模型(CLIP),提出了一种利用生成文本描述模型失效模式的端到端框架,以提高对稀有背景等失败情景的性能。通过生成合成数据,以此学习模型的不足,并在不同数据类别的罕见背景上增强性能, - 多集合免疫接种:跨多个挑战集评估模型的稳健性
探讨语言模型对输入扰动的敏感性以及通过不同训练策略来提高模型性能和鲁棒性的方法,通过在 Tabular-NLI 任务中的实例验证了该模型可对抗不同的扰动而不降低准确性。
- GenEval: 评估文本与图像对齐的对象为中心框架
通过 GenEval 评估框架,我们展示了当前目标检测模型可用于评估各种生成任务的文本到图像模型,并分析其生成能力。我们发现最近的模型在这些任务上有显著改进,但在空间关系和属性绑定等复杂能力方面仍有缺失。最后,我们展示了如何使用 GenEv - 不以为意:从语言模型中引发冒犯
通过红队测试针对语言模型的自动化测试用例生成方法,实现语言模型的可靠部署,检测其鲁棒性和失败模式。
- PRIME:故障模式提取中的优先解释性
我们研究了在训练图像分类模型中提供人类可理解的失败模式描述的挑战。通过研究现有方法的局限性,我们提出了一种新颖的方法,首先从数据集中获取人类可理解的图像概念(标签),然后根据这些标签的组合的存在与否分析模型的行为,以提高对失败模式的识别和生 - 基于文本引导的扩散模型的有趣性质
本文发现了 TDMs 的四个特性,并提出了一种名为 SAGE 的对抗攻击方法,用于发现 TDMs 的意外行为和失效情况。
- 支持人工智能与人类合作审计 LLM 的 LLM
本文介绍了一个新的大型语言模型审计工具 AdaTest ++,并展示了人类和生成模型在协作审计中的互补优势,该工具有效地利用人类的强项,包括模式化、假设形成和测试,帮助鉴定了之前鲜有报道的 26 种不同类型的失效模式。
- 通过离散优化自动审计大型语言模型
通过优化方法与 ARCA 算法,该研究提出了一种用于审核大型语言模型的新工具,能够在模型部署之前预测模型的失败模式。
- 利用进化采样缓解 PINNs 中的传播故障
本文提出了一种新的物理信息神经网络故障模式的解释方式,并从采样策略的角度解释了其失败模式。此外,作者还提出了一种新的演化抽样方法,可以有效地缓解此类问题。
- 在潜空间中提炼模型失败方向
本文介绍了一种自动提取模型误差模式的方法:使用线性分类器来识别一致的错误模式,并将其表示为特征空间内的方向。使用此框架,结合扩散模型,能够自动发现训练数据集中具有挑战性的子人群,进而进行数据扩充,以改善模型失效的情况。
- 综合多样特征先验
本研究中,我们发现使用不同特征先验训练的模型具有较少重叠的失败模式,可以更有效地进行组合,并展示共同训练这些模型对额外 (未标记的) 数据可以互相修正错误,从而提高泛化和对噪声的鲁棒性。
- CVPR通过鲁棒特征提取理解深度网络的故障
本文介绍并研究了一种方法,旨在通过识别导致模型失败的视觉特征,对学习模型的传统评估方法进行补充,从而更好地表现重要和有益的失败模式。作者进一步提出了一种可视化方法用于帮助人们理解这些特征的含义,并在 ImageNet 数据集上进行了评估,结 - AAAI网络中的迷信:深度强化学习玩欺骗性游戏
本研究通过在四个具有欺骗性的游戏中测试广泛使用的异步 Actor-Critic 算法来更好地表征深度强化学习中失败的模式和原因,并发现这些游戏可靠地欺骗深度强化学习器,进一步提高这些算法的应用价值。
- NIPS如何开始训练:初始化和架构的影响
本文针对深度 ReLU 神经网络早期训练的两种常见失效模式进行研究和识别,为每种模式提供了严格的证明以及如何避免。我们证明了正确的权重初始化以及架构可以使得深层神经网络成功训练,并在实验中证实了我们的理论结果的有效性。
- ICML预测过程中的错误分类
使用拓扑数据分析中的 Mapper 算法,本文提出了一种名为 FiFa 的方法,用于分类预测过程的失败模式。在 MNIST 图像添加噪声的情况下,通过对高误差区域的群集分析,可得到预测过程的区别失败模式。本文还演示了两种使用失败模式分类的方