Jun, 2023

INSTRUCTEVAL:面向指导调整的大语言模型的全面评估

TL;DRINSTRUCTEVAL是一个全面的评估套件,旨在评估大型语言模型在指令调整下的表现,其结果表明,指令数据的质量是影响模型性能的最重要因素,并且从问题解决能力和与人类价值观的一致性方面,这些模型还有很大的提升空间。