Mar, 2023

数据肖像:记录基础模型训练数据

TL;DR提出了 “数据肖像” 的概念,以记录训练数据,以增加模型训练的透明度并解决模型抄袭、数据泄漏等问题。作者采用数据草图技术实现了该方案,仅增加 3% 的额外开销,在大规模语言模型数据集上证明了该方案的有效性。