Jun, 2024

使用基于角色的互动进行多轮和长上下文的同行评审

TL;DR我们提出了将同行评审过程重新定义为多轮长上下文对话,并在这个重新定义的同行评审框架下开发了一系列用于评估大型语言模型性能的指标,以适应真实世界中的同行评审的迭代和互动特点。