- 神经网络如何学习:隐含于随机梯度下降的正则化效应
深度神经网络能够有效地学习目标函数的支持,并且小批量随机梯度下降具有隐式正则化效果,通过学习特征的结构,提高特征的可解释性。
- 全局完善:大型语言模型上的标记级校准度量
深度神经网络和大型语言模型在提供准确的不确定性估计方面面临挑战,因此提出一种新的校准概念 —— 完全校准,并引入其相应的度量指标 Full-ECE,用于评估预测概率分布的整体校准性。
- 特征映射协调:增强对抗鲁棒性的图卷积方法
深度神经网络对对抗性扰动的脆弱性引起了重大的安全关切,本研究提出了一种创新的插拔模块称为基于特征图的重构图卷积(FMR-GC),通过在通道维度上谐调特征图以重构图,并采用图卷积捕获邻域信息,有效校准污染特征,与先进的对抗训练方法相结合,显著 - 通过解耦视觉表示遮蔽来提高对抗鲁棒性
深度神经网络在对抗性例子方面容易受到攻击,针对这一问题,我们提出了一种基于解耦视觉特征掩蔽的简单而有效的防御方法,该方法可以提高鲁棒性,相对于现有的防御方法具有优越性能。
- 一种以速率 - 失真为视角的不确定性量化方法
本论文介绍了一种名为 DAB(Distance Aware Bottleneck)的新方法,用于通过学习一个代码本,丰富深度神经网络的性质,从而提供确定性不确定性评估,达到更好的异常检测和误分类预测结果。
- 基于专家模型融合的高效 Pareto 集近似方法
通过专家混合(MoE)模型融合的实用且可扩展的方法,本研究旨在有效学习大型神经网络的 Pareto 集,从而捕捉多个目标之间的权衡关系和大致近似整个 Pareto 集,并在低内存使用量的情况下提供可扩展性。
- 高保真模型提取中超越缓慢标志
该研究评估了对于在标准基准上训练的模型使用 Carlini 等人 [1] 进一步加强的参数提取方法的可行性,引入了统一的代码库并发现计算工具可以显著影响性能;通过识别更容易和更难提取的神经元,开发了进一步的优化方案,将提取权重值的效率提高了 - 基于深度 Galerkin 反馈法的智能体动力学最优控制
通过采用基于漂移放松的采样方法,本文研究了 Deep Galerkin 方法所面临的采样问题,通过验证 Sznajd 和 Hegselmann-Krause 模型中的意见动态变化的多场控制问题,得出的策略在手动优化控制函数上实现了显著成本降 - LaCoOT: 通过最优输运实现层塌缩
通过最大切片 Wasserstein 距离来最小化神经网络中间特征分布之间的距离,从而减少深度过度参数化的深度神经网络的计算负担。
- 深度手绘输出内核回归用于结构化预测
我们提出了一种深度神经网络架构家族,其通过 kernel-induced losses 的数据依赖有限维子空间来预测结构化输出,利用梯度下降算法进行训练,并在合成任务和真实世界的监督图预测问题中展示了方法的相关性。
- 我不认识你,但我能够捕捉你:针对目标检测的多样对抗性补丁的实时防御
提出了一种创新的模型 NutNet,用于检测对抗性贴片,在高泛化性、鲁棒性和效率方面表现优异。通过对六个检测器进行实验,包括 YOLOv2-v4,SSD,Faster RCNN 和 DETR 在数字和物理领域上,结果显示我们的方法可以有效防 - 基于 LLM 的概念发现:自动识别和解释神经元功能
利用多模态大型语言模型进行自动和无限的概念发现,既可以发现概念,又可以验证它们,为解释深度神经网络提供可信的自动化工具。
- 一种通用的信号调制识别深度学习模型的层剪枝方法
深度学习在通信系统中的成功应用使得深度神经网络成为信号分类的首选方法。然而,这些模型通常具有高计算复杂度和大的模型尺寸,这阻碍了它们在通信系统中的实际部署。为解决这个挑战,我们提出了一种新型的层剪枝方法,通过将模型分解成几个连续的块,每个块 - 强混合观测的深度学习:稀疏处罚正则化与极小极大优化
深度神经网络在依赖数据上的显式正则化和优化性能最近取得了相当大的进展。本文研究了从强混合观测样本中进行深度学习,并处理了平方损失和一类广义损失函数。对于包括回归估计、分类、时间序列预测等的一般框架,建立了期望超越风险的奥拉克不等式并给出了一 - 具有理论保证的无监督目标检测
通过深度神经网络实现无监督目标检测是一个通常具有少量或没有有关学习表示的保证的难题。我们提出了第一个在理论上保证能够恢复真实目标位置的无监督目标检测方法,同时与编码器和解码器的感受野尺寸、目标尺寸和渲染过程中使用的高斯宽度相关的小偏移有关。 - 失败是命中注定的,但可以淡化:关于大规模视觉语言模型中的不良行为的特征化和缓解
通过使用深度强化学习方法,本研究通过有限的人类反馈探索和构建预训练的辨别模型和生成模型的失败模式,并展示了如何重构这些失败模式以更好地满足需求,从而解决大规模深度神经网络在准确性、社会偏见和与人类价值观的一致性等方面可能出现的问题。
- ICLR基于神经常微分方程的脱耦合标记时态点过程
一个名为 Marked Temporal Point Process 的随机过程研究了异步时间事件的复杂动态,利用深度神经网络和神经常微分方程处理数据,提供了对事件影响和整体动态的解耦成果以及对实际应用的分析。
- ProAct: DNN 增强鲁棒性的渐进式训练混合剪切激活函数
通过结合神经元和层级两种方法,本研究提出了一种混合截断激活函数,用于增强深度神经网络在硬件故障下的可靠性,并引入了一种渐进训练方法(ProAct)以获得截断激活函数的最佳阈值。
- 离线强化学习中的值函数估计是否能与分类器插件一起联动?
通过大规模实验和不同算法的多样性任务,我们的研究旨在实证地调查这种替代方法对性能的影响,结果显示在某些任务中,这种改变可以实现超过现有解决方案的卓越性能,而在其他任务中保持相当的性能水平;然而对于其他算法,此修改可能导致性能的显著下降。这些 - DMS: 解决实用对抗攻击中的信息丢失问题的多步骤方法
通过研究信息损失对深度神经网络在对抗样本上的效果的影响,本文提出了 Do More Steps (DMS) 算法,利用梯度信息来减少信息损失,从而提升攻击性能。通过在两个大规模数据集上的实验证明了 DMS 算法相对于标准方法在保持攻击完整性