ACLDec, 2021

去除黄金标准:重新评估对话问答

TL;DR本文对目前最先进的对话问答系统进行了首次的大规模人类评估,发现人类与机器之间的对话存在显著差异。此外,基于预测历史的问题重写机制能够更好地与人类判断相一致。通过研究各种建模策略,讨论了构建更好的对话问答系统的未来方向。