预训练语言模型的强大抽奖票

ACLNov, 2022

Robust Lottery Tickets for Pre-trained Language Models

Rui Zheng, Rong Bao, Yuhao Zhou, Di Liang, Sirui Wang...

TL;DR本文提出了一种基于学习二进制权重掩码的新方法，用于识别原始 PLM 中隐藏的强健 Ticket，并设计了一个对抗性损失目标来引导寻找强健的 Ticket，并确保票据在准确性和鲁棒性方面表现良好。

Abstract

Recent works on lottery ticket hypothesis have shown that pre-trained language models (PLMs) contain smaller matching subnetworks(winning tickets) which are capable of reaching accuracy comparable to the original models. However, these tickets are proved to be notrobust to

lottery ticket hypothesis pre-trained language models robustness binary weight masks adversarial examples

发现论文，激发创造

通过任务无关的掩码训练在 BERT 转移上学习赢得彩票的方法

本文通过对 BERT 子网络的研究发现直接优化子网络结构能更好地保留预训练性能，探究了幸运彩票假设、幅度剪枝和二值掩码训练等方法在 BERT 子网络中的应用，发现二值掩码训练方法在寻找改进 BERT 子网络性能方面更加有效。

Apr, 2022

鲁棒预训练的数据高效双赢彩票

本研究提出了一种 “双赢彩票模型”，在同时具有标准训练和对抗训练的下游任务中，可独立转移预训练模型的定位子网络，以达到与完整预训练模型相同的标准和强健的识别泛化效果。然后，本研究探讨了各种预先训练机制，发现强健的预先训练倾向于制作更稀疏的双赢彩票模型，并且相较于标准机制，在实际数据有限的情况下会更加高效。

Jun, 2022

实用的彩票票假设在对抗训练中的应用

本文提出彩票票据假说，展示了深度神经网络中存在的可训练子网络，这些子网络在相同的训练步骤下表现不亚于原始模型。研究表明存在某些子网络能够更快地收敛，我们的实验表明这些子网络在各种模型结构和超参数的限制条件下的一致存在性，此外，这些子网络能够在对抗性训练中将总时间缩短至最新技术的 49％。

Mar, 2020

深度生成模型中的中奖彩票

本研究证实了 Lottery Ticket Hypothesis 可适用于 deep generative models 并提出了一种寻找 winning tickets 的有效方法，同时发现这些 winning tickets 有跨模型的传递性，因此可以帮助训练多种深度生成模型，并通过 early-bird tickets 的方式可以大幅减少训练时间和 FLOPs。

Oct, 2020

使用奖励和多语言进行彩票游戏：在强化学习和自然语言处理中使用的彩票

该论文评估了 'lottery ticket' 初始化方法在自然语言处理和强化学习领域中的应用，研究发现该方法可以大大提高深度神经网络的性能和压缩效果。

Jun, 2019

视觉和语言中的抽奖券玩法

本文通过实证研究发现，大规模的预训练 VL 模型中存在可训练的子网络，该子网络可通过精细修剪结构实现高精度计算并具有良好的通用性。

Apr, 2021

预训练 BERT 网络的彩票票证假设

本文采用彩票票据假说来研究预训练的 BERT 模型是否存在可训练的、可转移的子网络，发现在一些任务上存在符合条件的子网络，这些子网络在初始化时即可被找到，其中在与预训练任务相同的任务上找到的子网络具有普适的迁移性，而在其他任务上找到的子网络则具有有限的迁移性。

Jul, 2020

抓到偷走我中奖彩票的人！声明我的彩票所有权

本文研究使用基于图形签名和触发器集的稀疏拓扑信息进行彩票验证，以防止知识产权侵权和确认所有权。实验表明，该方法对不同模型和攻击有鲁棒性。

Oct, 2021

预训练语言模型中的超级票：从模型压缩到提高泛化能力

该研究探讨了 Lottery Ticket Hypothesis 理论，在预训练语言模型这样极度超参数化的模型中，如何通过压缩 ratio 选定一组 “winning tickets” 子模型来匹配全模型的性能。另外观察到当 compression ratio 达到某个临界点时，性能会出现相位转变现象，我们称此时被删减对临界点最立竿见影的超票为 “super tickets”，实验证明它们对 BERT-base 和 BERT-large 的单任务微调平均得分分别有 0.9 和 1.0 的提升，多任务学习时的共享也取得了提升。

May, 2021

彩票适应性：减轻 LLM 中的破坏性干扰

Lottery Ticket Adaptation (LoTA) is a sparse adaptation method for large language models that improves performance on multiple tasks by optimizing a sparse subnetwork, mitigating catastrophic forgetting.

Jun, 2024