单个GPU实现数据效率：小型语言模型转移方法探索

Oct, 2022

Data-Efficiency with a Single GPU: An Exploration of Transfer Methods for Small Language Models

Alon Albalak, Akshat Shrivastava, Chinnadhurai Sankar, Adithya Sagar, Mike Ross

TL;DR本文探讨了在小语言模型中，模型规模大小，多任务学习，指令调整，fine-tuning 和域内学习等对模型性能影响，其中通用MTL和域内MTL能够分别提升模型相对31%和37.6%的效果，并且与先前的研究结果不同，指令调整仅提供了小幅度的2%性能改进。

Abstract

multi-task learning (MTL), instruction tuning, and prompting have recently been shown to improve the generalizability of large language mo