Jun, 2024

SuperPos-Prompt: 使用多个令牌嵌入的叠加来增强语言模型的软提示调优

TL;DR在参数高效调整预训练语言模型方面,软提示调整技术最近已经引起了广泛关注,尤其是减少模型参数调整所需的工作。尽管它们的使用越来越多,但是在使用软提示进行最优调整,特别是在较小的数据集上,仍然面临着重大挑战。该研究在这个领域做出了两个贡献:(i)我们引入了 SuperPos-Prompt,一种新的重新参数化技术,采用多个预训练词汇嵌入的叠加来改善软提示的学习。我们在几个 GLUE 和 SuperGLUE 基准测试中的实验一致表明 SuperPos-Prompt 优于 Residual Prompt 调整,在 T5-Small 上平均得分增加了 6.4,T5-Base 上增加了 5.0,并且收敛速度更快。值得注意的是,SuperPos-Prompt 有时甚至超过了完整的微调方法。(ii)此外,我们通过从冻结网络中省略丢失操作,展示了增强的性能和快速收敛,从而在各种场景和调整方法中持续改进。