通过信息瓶颈专门化单词嵌入(用于解析)
本论文介绍了一种能够学习在同一模型的不同层次进行不同抽象级别压缩的语言表示模型,并通过在编码器的堆叠 Transformer 自注意力层中应用非参数变分信息瓶颈 (NVIB) 来促进表示的信息理论压缩。论文发现模型内的不同层次对应于不断增加的抽象级别,并且它们的表示更具有语言学信息。最后,实验证明 NVIB 压缩能够产生更具鲁棒性的模型,面对对抗性扰动更加稳健。
Oct, 2023
本文提出使用变分信息瓶颈 (VIB) 来压制过拟合和提高低资源情景中的传输学习,并证明我们的方法成功地降低了过拟合,提高了泛化能力。我们的 VIB 模型发现的句子表示更加鲁棒且能够在自然语言推断数据集中更好地泛化到领域外数据集,实验结果表明我们的方法显著提高了传输学习,并在 13 个领域外自然语言推断基准测试中提高了泛化能力。
Jun, 2021
我们提出了 VTrans,一种迭代剪枝框架,通过变分信息瓶颈(VIB)原则引导,压缩所有结构组件,包括嵌入层、注意力头和层,以满足模型大小或计算约束,相比之前的方法实现了高达 70% 的压缩,并提出了更快的变体。在 BERT、ROBERTa 和 GPT-2 模型上进行的广泛实验证实了我们方法的效果,并使用基于注意力的探针定性评估模型冗余性和方法的效率。
Jun, 2024
本文提出 “Deep Variational Information Bottleneck” 方法,通过可变分近似来将信息瓶颈模型参数化,使用神经网络和重新参数化技巧进行高效训练。结果显示,使用 VIB 优化训练的模型在泛化性能和对抗攻击鲁棒性方面优于其他正则化方法。
Dec, 2016
本文研究了如何平衡效用、信息的有效性和复杂性,从而塑造新兴的通信,并将其与人类通信进行比较。我们使用 VQ-VIB 方法训练神经代理来压缩输入以获得离散信号,从而比以往的神经体系结构在其性能方面更具优越性,并发现惩罚交际复杂性可以维持高效用的同时维持类似人类的词汇量。此外,我们还发现,VQ-VIB 优于其他离散通信方法。
Jun, 2022
我们研究了如何将基于 transformer 的句子嵌入压缩成一种表示,以分离不同的语言信号,特别是与主谓一致和谓词交替相关的信息。通过在变分自编码器类似系统的潜在层中压缩共享目标现象的输入序列,我们发现目标语言信息变得更加明确。具有离散和连续组成部分的潜在层比只有离散或只有连续组成部分的潜在层更好地捕捉目标现象。这些实验是将分布式文本嵌入中的语言信号与更符号化的表示相分离并将它们联系起来的一步。
Dec, 2023
本文通过使用混合词汇训练来对齐师生嵌入,提出了一种压缩 BERT-LARGE 的知识蒸馏方法,使其成为一个具有更小词汇表和隐藏维数的无任务模型,这个模型的经验结果表明它比其他压缩 BERT 模型在语言理解基准和实际对话任务中具有更好的性价比。
Sep, 2019