Mar, 2024

大规模语言模型低秩适应的无导数优化

TL;DR在少样本情境中,本研究通过将低秩模块添加到模型的自注意力层中,并采用两种无导数优化方法来交叉优化这些低秩模块,展示出与现有的基于梯度的参数高效调整和无导数优化方法相比,在多个任务和语言模型上取得了显著改进,并在内存使用和收敛速度方面表现出明显优势。