ACLMay, 2023

评估问题生成需要更多参考文献

TL;DR提出使用 GPT-3 等大型语言模型来进行问题生成并采用多个(伪)参考答案进行评估,以更全面地评估 QG 技术潜力的方法。实验结果表明,使用多个参考答案进行 QG 评估比使用单个参考答案更为有效,并且更能与人类评估相符合。