Jan, 2022

人类评估对话的敏感度是个开放性问题:比较不同的方法用于评估对话代理

TL;DR本文研究了如何有效地评估对话系统的性能,发现人工评估是最好的方法,但人工评估方法的不同会导致不同的数量的人工注释和劳动成本,因此我们比较了五种不同的众包工人评估方法,发现不同的方法适用于不同类型的模型比较,建议在何时采用哪种方法,以及未来的研究方向。