May, 2023

面对Token危机下放大LLM:重复还是不重复的思考

TL;DR本研究旨在通过重复预训练数据来加强大型语言模型。然而,该方法容易导致过拟合,除非使用适当的正则化方法,其中最有效的是dropout。同时,本研究还探索了数据集大小,模型参数和训练目标等因素对多重训练期恶化的影响,以及混合专家方法如何提高密集大型语言模型的计算效率和性能。