TIER-A: 信息提取的去噪学习框架
本文研究信息提取中遇到的嘈杂标签问题,提出了一个共同正则化框架来解决这个问题,该框架基于识别嘈杂标签需要更多训练步骤且更容易被忘记的性质,在 TACRED 和 CoNLL03 这两个嘈杂基准数据集上进行了广泛的实验,并发布了代码供未来研究使用。
Apr, 2021
使用统计和信息理论的已建立原则,我们展示了深度神经网络中对无关因素的不变性等同于学习表示的信息最小性,而叠加层和在训练期间注入噪声自然偏向于学习不变表示。我们进一步分解了训练过程中使用的交叉熵损失,强调了内在的过拟合项。我们提出通过两种等效方式来限制这样的项的正则化损失:一种是使用 Kullbach-Leibler 项,它与 PAC-Bayes 视角相关;另一种是使用权重中的信息作为学习模型复杂度的度量,从而为权重提供了一种新的信息瓶颈。最后,我们展示出在神经网络中学习到的表示组件的不变性和独立性在权重中的信息上限和下限是有界的,因此在训练过程中自动优化。该理论使我们能够量化和预测使用我们的正则化损失时随机标签下欠拟合和过拟合之间的尖锐相变,我们通过实验证实了这一点,并阐明了损失函数的几何形状、学习表示的不变性属性和泛化误差之间的关系。
Jun, 2017
从信息论的角度出发,我们提出了 InfoBERT 框架来增强预训练语言模型的鲁棒性,包含两种基于相互信息的正则化器:信息瓶颈正则化器和鲁棒特征正则化器。实验证明,该方法在 NLI 和 QA 任务上取得了最先进的鲁棒性的结果。
Oct, 2020
本文提出一种基于信息熵的无知识先验的注意力正则化(EAR)方法来抑制自然语言处理模型在训练数据集中对某些特定词汇的过度拟合,通过将该方法应用于 BERT 模型进行微调,实现了在英语和意大利语的三个基准数据集上的恶意言论分类和公平指标上的最优表现。此外,EAR 还能够识别出最可能引起偏见的用语,从而有助于识别它们对模型、任务和预测的影响。
Mar, 2022
本文介绍了一类采用可计算的信息理论模型的深度学习模型,探讨了该模型从启发式的统计物理方法中导出熵和互信息的方法,在该方法的基础上,设计了一种实验框架用于对生成模型进行训练,并对该模型进行验证,同时研究了本模型在学习过程中的行为,得出结论:在所提出的情况下,压缩和泛化之间的关系仍然不明确。
May, 2018
在一个前馈网络中,可以使用传递熵(TE)来衡量一层对另一层的影响,通过在训练期间量化它们之间的信息传递。通过在输入数据中的信息量与压缩表示之间绘制图表来理解信息瓶颈方法中压缩和信息保留之间的权衡,这被称为信息平面分析。我们使用 TE 来量化神经层之间的信息传输,并进行信息平面分析以探索信息理论压缩和泛化之间的因果关系。我们获得了令人鼓舞的实验结果,为进一步研究打开了可能性。
Apr, 2024
通过 attention 机制,我们提出了一种新的信息变换学习熵模型,能更好地处理图像压缩的全局和局部依赖关系,实验证明该模型取得了优于现有技术的率失真性能,并且没有二次计算复杂度问题。
Dec, 2021
利用伪监督和一致性正则化的半监督图像分类方法,在最大化增强视图之间的互信息下限时,通过信息熵神经估计利用未标记样本的潜力,从理论上分析出图像分类器的信息熵通过最大化 softmax 预测的似然函数近似估计。在这些见解的指导下,我们从两个角度优化我们的模型,以确保预测的概率分布与真实分布紧密一致,并通过大量实验证明其卓越性能。
Apr, 2024
通过引入基于熵的损失项,我们提出了一种新的方法来加强神经网络学习丰富的潜在数据表示,在更少的维度上收敛于更好的测试指标,并在图像压缩和图像分类的实验中展示了其有效性。
Aug, 2023