ACLMay, 2023

高效 BERT 预训练中的 Token 丢弃策略再思考

TL;DR通过提出语义一致性学习方法(ScTD)来优化 token dropping,从而在保持语义信息的同时显著提高性能,尤其在处理语义密集型任务时,ScTD 可以更好地处理语义丢失的问题。