Feb, 2023

ROOTS 搜索工具:为 LLMs 提供数据透明度

TL;DR该研究介绍了 ROOTS,一个 1.6TB 的多语言文本语料库和 ROOTS 搜索工具,后者是一个可提供模糊和精确搜索功能的搜索引擎,以便为 BLOOM 等语言模型提供训练数据,并提供数据治理等方面的保障。ROOTS 是目前可以进行此类探究的最大语料库之一,并且有了开源的 ROOTS 搜索工具,可以通过 Hugging Face Spaces 进行访问。