ACLMay, 2023
高效 BERT 预训练中的 Token 丢弃策略再思考
Revisiting Token Dropping Strategy in Efficient BERT Pretraining
Qihuang Zhong, Liang Ding, Juhua Liu, Xuebo Liu, Min Zhang...
TL;DR通过提出语义一致性学习方法(ScTD)来优化 token dropping,从而在保持语义信息的同时显著提高性能,尤其在处理语义密集型任务时,ScTD 可以更好地处理语义丢失的问题。