预训练语言模型中的超级票：从模型压缩到提高泛化能力

ACLMay, 2021

预训练语言模型中的超级票：从模型压缩到提高泛化能力

Super Tickets in Pre-Trained Language Models: From Model Compression to Improving Generalization

Chen Liang, Simiao Zuo, Minshuo Chen, Haoming Jiang, Xiaodong Liu...

TL;DR该研究探讨了 Lottery Ticket Hypothesis 理论，在预训练语言模型这样极度超参数化的模型中，如何通过压缩 ratio 选定一组 “winning tickets” 子模型来匹配全模型的性能。另外观察到当 compression ratio 达到某个临界点时，性能会出现相位转变现象，我们称此时被删减对临界点最立竿见影的超票为 “super tickets”，实验证明它们对 BERT-base 和 BERT-large 的单任务微调平均得分分别有 0.9 和 1.0 的提升，多任务学习时的共享也取得了提升。

Abstract

The lottery ticket hypothesis suggests that an over-parametrized network consists of ``lottery tickets'', and training a certain collection of them (i.e., a subnetwork) can match the performance of the full model

lottery ticket hypothesis over-parametrized network winning tickets compression ratios super tickets

发现论文，激发创造

深度生成模型中的中奖彩票

本研究证实了 Lottery Ticket Hypothesis 可适用于 deep generative models 并提出了一种寻找 winning tickets 的有效方法，同时发现这些 winning tickets 有跨模型的传递性，因此可以帮助训练多种深度生成模型，并通过 early-bird tickets 的方式可以大幅减少训练时间和 FLOPs。

Oct, 2020

预训练 BERT 网络的彩票票证假设

本文采用彩票票据假说来研究预训练的 BERT 模型是否存在可训练的、可转移的子网络，发现在一些任务上存在符合条件的子网络，这些子网络在初始化时即可被找到，其中在与预训练任务相同的任务上找到的子网络具有普适的迁移性，而在其他任务上找到的子网络则具有有限的迁移性。

Jul, 2020

视觉和语言中的抽奖券玩法

本文通过实证研究发现，大规模的预训练 VL 模型中存在可训练的子网络，该子网络可通过精细修剪结构实现高精度计算并具有良好的通用性。

Apr, 2021

鲁棒预训练的数据高效双赢彩票

本研究提出了一种 “双赢彩票模型”，在同时具有标准训练和对抗训练的下游任务中，可独立转移预训练模型的定位子网络，以达到与完整预训练模型相同的标准和强健的识别泛化效果。然后，本研究探讨了各种预先训练机制，发现强健的预先训练倾向于制作更稀疏的双赢彩票模型，并且相较于标准机制，在实际数据有限的情况下会更加高效。

Jun, 2022

稀疏转移学习中的优胜彩票算法

本文基于 Lottery Ticket Hypothesis 对一系列迁移学习任务进行研究，通过使用无结构量级剪枝来发现最优子网络，实验结果表明减少约 90-95% 权重的稀疏子网络在多个现实场景下能够达到或超过原始网络的准确度。

May, 2019

EarlyBERT: 早鸟抽奖票优化 BERT 训练

本篇论文提出了 EarlyBERT，这是一种通用的计算高效的训练算法，可用于大规模语言模型的预训练和微调，通过对自注意和全连接子层进行精简，第一次在 BERT 训练的早期阶段中发现了结构优质的 winning tickets，实验结果表明，与标准 BERT 相比，EarlyBERT 能够在 35-45％的训练时间内实现相当的性能。

Dec, 2020

预训练语言模型的强大抽奖票

本文提出了一种基于学习二进制权重掩码的新方法，用于识别原始 PLM 中隐藏的强健 Ticket，并设计了一个对抗性损失目标来引导寻找强健的 Ticket，并确保票据在准确性和鲁棒性方面表现良好。

Nov, 2022

使用奖励和多语言进行彩票游戏：在强化学习和自然语言处理中使用的彩票

该论文评估了 'lottery ticket' 初始化方法在自然语言处理和强化学习领域中的应用，研究发现该方法可以大大提高深度神经网络的性能和压缩效果。

Jun, 2019

为什么彩票票获胜？剪枝神经网络中样本复杂度的理论视角

本文通过分析目标函数的几何结构和样本复杂度，理论上证明了剪枝神经网络在加速随机梯度下降算法的特定情况下，训练过程中获得零泛化误差所需的样本数与隐藏层中未被剪枝的权重数成正比，从而提供了对中奖票证明的形式化证明。

Oct, 2021

KS-Lottery: 查找多语言模型的认证彩票

通过使用 Kolmogorov-Smirnov 检验分析微调前后的参数分布变化，我们提出了 KS-Lottery 方法，以识别在多语言微调中非常有效的少数 LLM 参数集。我们进一步从理论上证明了 KS-Lottery 可以在嵌入层中找到被证实的中奖票，使用这些参数进行微调可以保证与全面微调相同的性能表现。与其他参数高效调整算法在翻译任务上相比，实验结果显示 KS-Lottery 在找到的参数集上进行微调，可以获得与全面微调 LLM 相当的性能，同时参数数量较少。令人惊讶的是，我们发现微调 LLaMA 中的 18 个标记的嵌入层就足以达到微调翻译性能。代码和模型将向公众发布。

Feb, 2024