- 一种寻找更好激活函数的方法
通过信息熵的角度,本研究理论上证明了存在具有边界条件的最差激活函数,提出了基于熵的激活函数优化方法(EAFO),并从 ReLU 中推导出了一种新的激活函数 CRReLU。实验证明 CRReLU 在深度神经网络中表现优异,并在大型语言模型细调 - 基于扩散模型的昂贵多目标贝叶斯优化
多目标贝叶斯优化通过引入复合扩散模型和信息熵加权方法,在昂贵多目标优化问题中获得高质量解集,并在合成基准和实际问题上展示了卓越性能。
- 信息论统一微观机器学习、不确定性量化和材料热力学
提出了一个信息论框架,将原子尺度模拟、机器学习和统计力学结合起来,通过建立相图、识别稀有事件、对数据集进行优化、以及进行模型无关的不确定性量化,统一描述了原子尺度建模中的信息相关问题。
- LLMLingua-2: 数据去噪 以提升高效及精确的无要求任务的提示压缩
通过使用数据蒸馏方法,我们提出了一种基于 Transformer 编码器的令牌分类问题的任务无关提示压缩方法,以更高的效率压缩提示,降低延迟。
- 贝叶斯主动学习用于被审查回归
提出了一种新的建模方法来估计在剪辑回归中的主动学习目标,并证明其在各种数据集和模型中优于其他贝叶斯主动学习方法。
- 探究学习系统中信息熵变化的影响
通过向输入 / 潜在特征添加噪声,探讨了熵变对深度学习系统的影响。实验结果表明,特定类型的噪声可以提升不同深度架构的性能,并通过降低信息熵来理论上证明增益,进而在大规模图像数据集上展示了显著的性能提升。
- 基于可靠蒸馏的 GNN 知识量化应用于 MLP
论文提出一种基于知识启发的可靠蒸馏(KRD)的方法,通过评估信息熵的不变性量化图神经网络中不同知识点的可靠性,并以此为基础进行无监督采样,从而提高学生 MLP 的性能。
- Q-DETR: 一种高效的低位量化检测 Transformer
本文针对量化后检测转换器(Q-DETR)信息失真问题提出分布矫正蒸馏方法(DRD),该方法可优化查询分布使熵最大化,在上层引入前景感知查询匹配策略最小化条件熵。实验表明,该方法在 COCO 数据集上,4-bit Q-DETR 可加速与 Re - TIER-A: 信息提取的去噪学习框架
本研究基于深度神经语言模型,探讨了信息熵在信息提取过程中过拟合的作用,提出了 TIER-A 联合训练框架,使用温度校准和信息熵正则化避免了过拟合,并在广泛的实验中得到了验证。
- SIGIRGraphPAS: 图神经网络的并行架构搜索
本文提出了一种并行的图神经网络架构搜索框架 (GraphPAS),采用分享式进化学习并动态采用架构信息熵进行变异选择概率,从而提高搜索效率和准确性。实验结果表明,GraphPAS 在效率和准确性上都优于现有技术。
- ICCVReCU:二进制神经网络中死亡权重的复活
本文通过引入重整夹紧单元(ReCU)同时考虑权重信息熵和死权重,提出了一种针对二值神经网络(BNN)训练的新方法,实现了更快的训练和领先于最近的方法在 CIFAR-10 和 ImageNet 数据集上的性能。
- CVPR深度神经网络的滤波嫁接
该论文提出了一种称为过滤器移植的新学习范式,旨在提高深度神经网络的表示能力。通过移植外部信息(权重)来重新激活无效滤波器,采用熵 - 基准进行筛选,自适应权重策略平衡嫁接信息,经过移植操作后,网络的无效过滤器很少,从而使模型具有更强的表示能