- 基于损失梯度高斯宽度的泛化和优化保证
通过 Loss Gradient Gaussian Width (LGGW) 的复杂度度量,我们提出一种直接基于 LGGW 的泛化保证方法,在梯度支配条件下实现,其在深度模型中进行实证研究并证明其有效性。同时,我们展示了有限和优化的样本重用 - 重审,扩展和增强无 Hessian 函数的影响
借助第一阶泰勒展开,影响函数可以估计样本对模型的影响力,无需进行昂贵的模型重新训练;本文通过探索矩阵分解等方法加快和近似海森矩阵的求逆过程,将影响函数应用于深度模型,并提出了一种称为 TracIn 的简单逼近方法,该方法通过将海森矩阵的逆替 - AdaAugment:一种无需调优的自适应数据增强方法
AdaAugment 是一种无需调参的创新自适应增强方法,利用强化学习根据目标网络的实时反馈动态调整个别训练样本的增强程度,通过优化策略网络和目标网络的联合来有效适应增强程度,从而在效果和效率上一致性地优于其他最先进的数据增强方法。
- 远程视觉多任务推理的压缩特征选择
深度模型中的特征压缩与远程推理任务之间的关联性,通过互信息作为特征重要性度量,进行硬选择和软选择实验并与其他方法进行比较,提供多目标分析来深入研究。
- 异常梯度分析:通过无 Hessian 影响函数高效提升深度学习模型性能
在数据中心学习的经典情境下,通过分析和解决模型上的凸性假设和计算逆 Hessian 矩阵的计算成本的限制,建立了通过影响函数和异常梯度检测来识别有害训练样本的等价转换,从而扩展了影响函数的适用性,使其能够应用于非凸深度模型,并通过系统性实证 - 通过调整并对变化进行惩罚来减少预训练模型中的偏差
基于改变惩罚的方法来减轻模型中的隐性偏见,需要很少的对立示例并结合提前停止准则以增加性能。
- 隐秘护照:一种无需重新训练的深度模型知识产权保护的所有者和用户可验证凭证
确保深度模型的合法使用对于推动可信、可问责和负责任的人工智能创新至关重要。我们提出了隐写护照方法,通过在护照中隐藏用户的身份图像,并从各自的用户端护照中恢复,将使用许可与所有权验证分离开来。该方法支持深度模型的灵活许可,提供强有力的所有权证 - 通过对预训练模型进行校准,在二进制网络上进行长尾识别
使用高度资源有效的二进制神经网络作为骨干结构来学习长尾分布,通过校准和蒸馏框架利用平衡数据集上的预训练全精度模型作为教师,结合对目标函数术语的对抗平衡和高效的多分辨率学习方案,在 15 个数据集上对最新的长尾数据集进行了最大规模的实证研究, - 基于深度学习模型的脑卒中分割:一项比较研究
本研究选择了四种深度模型进行中风分割,即纯 Transformer 结构 (DAE-Former),两种带有注意机制的先进 CNN 模型 (LKA 和 DLKA),一种将 CNN 与 Transformer 结合的高级混合模型 (FCT), - 增强 Prompt 调参视觉 Transformer 的适应性
使用 ADAPT 框架对 Vision Transformers 进行参数高效提示调优,实现对下游任务的鲁棒性训练,从而在只调优了约 1% 的参数数量的情况下,实现与完全模型微调相当的鲁棒准确率(约 40%).
- Transformer 稳定了:一种端到端的信号传播理论用于语言模型
通过开发统一的信号传播理论和提供控制转换模型中正向和反向信号时刻的公式,本研究致力于理解和缓解与高注意力分数相关的梯度消失 / 爆炸、秩坍缩和不稳定性。我们还提出了 DeepScaleLM,一种初始化和缩放方案,通过整个模型保持单位输出 / - 基于扩散模型的数据扩充技术
DistDiff 是一种基于分布感知扩散模型的有效数据扩充框架,通过构建分层原型来逼近真实数据分布,优化扩散模型中的潜在数据点,实现生成与目标分布一致的样本,从而在数据扩充任务中取得显著的改进。
- 嵌入向量的余弦相似度真的只是相似性吗?
用于量化高维对象之间语义相似度的余弦相似度在实践中比未归一化的嵌入向量点积表现有时更好、有时更差。通过研究基于正则化线性模型的嵌入,我们得出了余弦相似度可以产生任意且无意义的相似度的结论。因此,我们提醒不要盲目使用余弦相似度,并提出替代方法 - INSITE: 使用子模函数和半监督数据编程对医学图像进行标注
在资源受限的环境中,利用有限的标注数据和领域专家的注释,通过有信息的子集选择和半监督数据编程方法,使用少量的样例图像来训练深度模型,取得了比其他半监督方法更好的结果。
- ACL现成孪生 transformer 网络的近似归属度
对 Siamese encoders 进行了方法验证,分析了其对语言学不同方面的关注,以及其词汇偏好。
- AAAI一步前進與回退:克服損失感知量化訓練中的曲折問題
本文提出了一种新的损失感知量化方法,通过一步前进和回溯的方式来获取更准确、更稳定的梯度方向,解决了梯度下降学习过程中梯度方向快速震荡的问题,实验证明该方法在收敛性能上具有竞争力且优于其他方法。
- 用于可编程照明计算显微术的混合深度学习和基于物理的神经网络
采用深度模型或物理模型是解决可编程照明计算显微术中逆采样重建问题的两种主流方法。本文结合深度模型和物理模型的优势,提出了一个由三个子神经网络组成的混合框架,在计算显微术中快速解决计算重建逆问题并取得更好的结果。该框架通过深度学习神经网络获得 - 利用深度网络在训练阶段仅针对非线性黑盒系统识别的能力
为了在系统辨识中充分利用深度模型的建模能力,本研究提出了一种新的训练策略,仅在训练阶段使用深度模型。通过采用两个具有不同结构和目标的分离模型,第一个模型是目标为模拟系统输出分布的深度生成模型(教师模型),第二个模型是基于浅层基函数的模型(学 - AAAI熵驱动的开放集主动学习
该研究提出了一种基于熵的开放集主动学习(EOAL)框架,通过有效利用已知和未知分布,从未标记的数据中选择信息量较高的样本,并在 CIFAR-10、CIFAR-100 和 TinyImageNet 数据集上表现优于现有的最先进方法。
- UIEDP:基于扩散先验的水下图像增强
水下图像增强中,UIEDP 是一个新的框架,将 UIE 视为在退化水下输入条件下清晰图像后验分布采样过程,通过结合先前训练的扩散模型和任何现有 UIE 算法,以改进合成图像的质量,从而生成更高质量且更自然的图像。