Aug, 2021

用于评估问答模型的语义答案相似度

TL;DR本论文提出了一种基于交叉编码器的语义答案相似度估计评估度量标准(SAS),与七种现有度量标准进行比较,并通过人类判断的语义相似性评估数据集检验其性能。结果表明,基于最近的 Transformer 模型的语义相似度度量标准与传统的词汇相似度度量标准在新创建的数据集和相关工作的一个数据集上的人类评价更加相关。通过语义相似性度量标准可以提高问答模型评测的准确性。