Sep, 2023

自动问答可回答性评估

TL;DR本研究提出了一种基于提示的回答可行性度量(PMAN),它是一种新颖的自动评估度量,用于评估生成的问题是否可由参考答案回答,以解决复杂任务如问题生成所面临的评估问题。通过广泛的实验,证明了其评估结果可靠且与人类评估一致。我们还将该度量应用于评估问题生成模型的性能,结果表明该度量与传统度量相辅相成。我们基于 ChatGPT 的问题生成模型达到了最先进的性能。