Sep, 2019

ACUTE-EVAL: 优化问题和多轮比较的对话评估改进

TL;DR本研究提出一个基于自我对话模型的评价过程,旨在寻找一种在不同注释人员之间具有更强鲁棒性的评级测试方案。经过实验证明,在这种方案下,我们可以在更快、更便宜的情况下推出新的测试标准并发布开源代码。