Oct, 2023

生成评估法官

TL;DR我们提出了一个具有 13B 参数的生成式评测模型 Auto-J,通过训练用户查询和大规模真实场景下 LLM 生成的响应,以适应多样化的评估协议,包括对比评估和单一响应评估,并提供详细分析和案例研究来揭示我们方法的潜力。