Mar, 2023
Koala: 一种基于预训练语料库量化重叠的索引
Koala: An Index for Quantifying Overlaps with Pre-training Corpora
Thuy-Trang Vu, Xuanli He, Gholamreza Haffari, Ehsan Shareghi
TL;DR本文介绍了一个名为 Koala 的工具,可以用于对大规模预训练数据进行搜索和分析,以帮助研究者进行有关大型语言模型的前置训练数据的分析,并且该工具提供了一个框架可以用于研究当前和未来的基准以及进行大型语言模型的结果记忆程度的评估。