离散键 - 值瓶颈 | BriefGPT

Jul, 2022

离散键 - 值瓶颈

Discrete Key-Value Bottleneck

Frederik Träuble, Anirudh Goyal, Nasim Rahaman, Michael Mozer, Kenji Kawaguchi...

TL;DR该论文提出了一种建立在离散瓶颈基础上的新方法来解决深度神经网络在连续学习中出现的灾难性遗忘问题，利用离散的键值对更加针对性地更新模型权重，实现有效减少灾难性遗忘。

Abstract

deep neural networks perform well on classification tasks where data streams are i.i.d. and labeled data is abundant. Challenges emerge with non-stationary training data streams such as continual learning. One po

deep neural networks continual learning pre-training discrete bottleneck catastrophic forgetting

发现论文，激发创造

Drop-Bottleneck: 学习离散压缩表示以实现鲁棒性噪声探索

我们提出了一种名为 Drop-Bottleneck 的信息瓶颈方法，该方法可以离散地删除与目标变量无关的特征。Drop-Bottleneck 不仅具有简单易行的压缩目标，而且还提供确定性压缩表示，可用于需要一致表示的推理任务。此外，它可以同时学习特征提取器和考虑到目标任务与每个特征维度之间关系的特征选择，这是大多数基于神经网络的 IB 方法所无法达到的。我们提出了一种基于 Drop-Bottleneck 的探索方法，适用于强化学习任务。在 VizDoom 和 DMLab 中的众多嘈杂和奖励稀疏的迷宫导航任务中，我们的探索方法实现了最先进的性能。作为一种新的 IB 框架，我们证明了 Drop-Bottleneck 在多个方面包括对抗鲁棒性和降维方面均优于 Variational Information Bottleneck（VIB）（Alemi 等人，2017）。

Mar, 2021

通过 DNN 瓶颈强化来防御对抗性样本

本文提出了一种基于 DNN 的信息瓶颈增强方案，以减轻 DNN 对抗攻击的脆弱性。通过引入多尺度低通目标和多尺度高频通信来增强信息瓶颈，本方案能够有效地过滤冗余信息，对 MNIST、CIFAR-10 和 ImageNet 等数据集的实验结果表明其抵御各种对抗攻击的强大防御效果。

Aug, 2020

延迟瓶颈化：缓解预训练图神经网络中的遗忘

传统的预训练和微调流程中的遗忘现象可能对下游任务产生不利影响，因此我们提出了一种新颖的延迟瓶颈预训练（DBP）框架，通过抑制压缩操作并延迟至微调阶段来尽量保持潜在表示与训练数据之间的互信息，以确保压缩能够由有标签的微调数据和下游任务进行引导。

Apr, 2024

任务无关连续学习的编码器和集成方法

使用对比自监督学习和集成模型的方法，构建一个架构，以有效地进行连续学习，同时避免灾难性遗忘，对多个基准测试问题进行评估并取得了优异的表现。

May, 2021

一种以速率 - 失真为视角的不确定性量化方法

本论文介绍了一种名为 DAB（Distance Aware Bottleneck）的新方法，用于通过学习一个代码本，丰富深度神经网络的性质，从而提供确定性不确定性评估，达到更好的异常检测和误分类预测结果。

Jun, 2024

移动边缘计算中动态编码和解码信息的分割学习：利用信息瓶颈理论

拆分学习是一种隐私保护的分布式学习范式，通过将机器学习模型（例如神经网络）分为编码器和解码器两部分，共享潜在表示进行模型训练。在移动边缘计算中，通过拆分学习可以训练网络功能（如流量预测），其中编码器位于用户设备，解码器位于边缘网络。基于数据处理不等式和信息瓶颈理论，我们提出了一种新的框架和训练机制，实现了传输资源消耗与共享潜在表示的信息量之间的动态平衡，直接影响预测性能。所提出的训练机制提供了一种具有多种复杂性 - 关联权衡模式的编码器解码器神经网络架构，实现了可调节的性能。适应性可以适应不同的实时网络条件和应用需求，可能减少运营支出并增强网络灵活性。作为一个概念证明，我们将这种训练机制应用于毫米波下行吞吐量预测问题。我们还从信息瓶颈理论的角度提供新的见解，并强调了与循环神经网络相关的一些挑战。有趣的是，我们发现在时序模型的时间域中存在压缩现象，除了随训练轮次的压缩阶段。

Sep, 2023

深度学习中信息瓶颈的更严格界限

使用变分近似方法为信息瓶颈提供新的、更紧的下界，从而提高先前基于信息瓶颈的深度神经网络的性能，并显著增强分类深度神经网络的对抗鲁棒性。

Feb, 2024

离散和高斯源的分布式信息瓶颈方法

研究多个编码器分别以某种方式压缩其观察结果的分布式信息瓶颈问题，建立单字母表征信息率区间的模型，并针对离散无记忆源和无记忆向量高斯源，提出 Blahut-Arimoto 类型的迭代算法，通过迭代一组自洽方程来计算最优的信息率与复杂度之间的权衡。

Sep, 2017

时间潜在瓶颈：序列学习中快速与慢速处理机制的综合

该研究探讨了如何将循环神经网络与 Transformers 结合起来，以实现更好的压缩表示和表达能力，以在视觉感知和序列决策任务中提高样本效率和泛化性能。

May, 2022

深度学习与信息瓶颈原理

使用信息瓶颈（IB）原理分析深度神经网络（DNN）的信息流，并得到 DNN 的理论极限及有限样本泛化的上限，同时探讨了网络的优化模型，层数和特征 / 连接与信息瓶颈权衡中的分叉点的关系，其中对应了网络层级结构上的结构相变。

Mar, 2015