May, 2022
FlexiBERT:当前的 Transformer 架构是否过于同质化和僵化?
FlexiBERT: Are Current Transformer Architectures too Homogeneous and Rigid?
Shikhar Tuli, Bhishma Dedhia, Shreshth Tuli, Niraj K. Jha
TL;DR本文提出了一种名为 FlexiBERT 的灵活多样的异构模型,引入了新的图形相似度嵌入方案和 BOSHNAS 神经体系结构搜索策略,以此解决使用固定维度模型的 NAS 方法所遇到的子优解问题,大大提高了 GLUE 基准的性能。