Aug, 2024

REInstruct:从无标签语料库构建指令数据

TL;DR本研究解决了为大型语言模型手动标注指令数据的困难和高成本问题。提出了REInstruct方法,通过从无标签语料库中自动构建指令数据,并采用重写方法提升数据质量。研究表明,使用REInstruct生成的指令数据在性能上超过了现有的其他开放源代码方法,具有广泛的应用潜力。