Sep, 2022

EditEval:面向文本改进的基于指令的基准测试

TL;DR本文提出 EditEval:一种以指令为基础的评测套件,利用高质量的现有和新数据集自动评估编辑能力,证明了 InstructGPT 和 PEER 的表现最佳,而大多数基线都低于监督学习 SOTA,本文通过这个基准的发布和公开可用的排行榜挑战,希望能够解锁未来发展能够进行迭代和更可控编辑的模型的研究。