Mar, 2024

语言模型的可靠性扩展:超级训练与下游任务

TL;DR基于语言模型的缩放定律,本研究通过建立 104 个模型的测试平台,以不同数量的标记在三个数据分布上进行训练,研究了超过训练的情况下的缩放和语言模型的下游任务性能之间的关系。