利用变分信息瓶颈压缩神经网络
我们提出了 VTrans,一种迭代剪枝框架,通过变分信息瓶颈(VIB)原则引导,压缩所有结构组件,包括嵌入层、注意力头和层,以满足模型大小或计算约束,相比之前的方法实现了高达 70% 的压缩,并提出了更快的变体。在 BERT、ROBERTa 和 GPT-2 模型上进行的广泛实验证实了我们方法的效果,并使用基于注意力的探针定性评估模型冗余性和方法的效率。
Jun, 2024
本文提出 “Deep Variational Information Bottleneck” 方法,通过可变分近似来将信息瓶颈模型参数化,使用神经网络和重新参数化技巧进行高效训练。结果显示,使用 VIB 优化训练的模型在泛化性能和对抗攻击鲁棒性方面优于其他正则化方法。
Dec, 2016
使用信息瓶颈(IB)原理分析深度神经网络(DNN)的信息流,并得到 DNN 的理论极限及有限样本泛化的上限,同时探讨了网络的优化模型,层数和特征 / 连接与信息瓶颈权衡中的分叉点的关系,其中对应了网络层级结构上的结构相变。
Mar, 2015
该研究提出了一种变分带宽瓶颈方法,针对含有 “特权” 输入的问题设置,根据所使用的标准输入对特权输入的值进行估计,并基于此选择随机访问或不访问特权输入,以实现压缩和通用性或降低通信成本等目的,该方法在强化学习实验中得到应用。
Apr, 2020
该研究利用 Information Bottleneck 原理和深度神经网络,采用互信息和压缩等技术,针对高维随机向量实现了对一般深度神经网络的信息瓶颈分析,并在一个近实际规模的卷积深度神经网络上揭示了互信息动态的新特征。
May, 2023
通过信息论,我们提出了一个可以重新演绎和推广现有变分方法,并设计新方法的统一原则。我们的框架基于多变量信息瓶颈的解释,其中两个贝叶斯网络相互权衡。我们将第一个网络解释为编码器图,指定了在压缩数据时要保留哪些信息;我们将第二个网络解释为解码器图,为数据指定了生成模型。利用这个框架,我们重新演绎了现有的降维方法,如深度变分信息瓶颈 (DVIB),Beta 变分自动编码器 (beta-VAE) 和深度变分规范相关分析 (DVCCA)。该框架在 DVCCA 算法族中自然引入了一个压缩和重建之间的权衡参数,从而产生了新的 Beta-DVCCA 算法族。此外,我们推导出了一种新的变分降维方法,深度变分对称信息瓶颈 (DVSIB),它可以同时压缩两个变量以保留它们压缩表示之间的信息。我们实现了所有这些算法,并在经过修改的噪声 MNIST 数据集上评估它们产生共享低维潜空间的能力。我们展示了与数据结构更匹配的算法 (Beta-DVCCA 和 DVSIB) 如何通过分类准确性和潜变量的维度来测量产生更好的潜空间。我们相信这个框架可以用来统一其他多视图表示学习算法,此外,它还为推导问题特定的损失函数提供了一个直观的框架。
Oct, 2023
本文提出了一种基于张量网络的压缩算法,能够显著地降低神经网络的参数量,从而提高其压缩效果和泛化性能。实验证明,该算法可将包含上千万参数的 VGG-16 模型的卷积层压缩为仅包含 632 个参数的张量网络,同时提升在 CIFAR-10 数据集上的测试准确率。该算法可被看作是一种高效的神经网络参数压缩方案,能够充分挖掘神经网络的可压缩性。
May, 2023
本文旨在测试信息瓶颈原理是否适用于更现实的场景,通过训练 ResNet 模型以衡量其隐藏层和输入图像数据之间的互信息,发现该原理适用于分类和自编码的两种训练模式,并且即使对于自编码器,也会发生压缩。通过通过观察隐藏层激活条件下的样本图像,提供了一种直观的视觉化方法来理解 ResNet 学习到的内容。
Mar, 2020