BriefGPT.xyz
Ask
alpha
关键词
crowdworker-based
搜索结果 - 1
人类评估对话的敏感度是个开放性问题:比较不同的方法用于评估对话代理
本文研究了如何有效地评估对话系统的性能,发现人工评估是最好的方法,但人工评估方法的不同会导致不同的数量的人工注释和劳动成本,因此我们比较了五种不同的众包工人评估方法,发现不同的方法适用于不同类型的模型比较,建议在何时采用哪种方法,以及未来的
→
PDF
2 years ago
Prev
Next