Mar, 2024

基于参考的度量方法在问题生成中的自否定

TL;DR该研究在使用 BLEU 和 BERTScore 等基于参考文献的指标评估问题生成(QG)时发现,使用人工编写的参考文献不能保证参考文献指标的有效性。作者提出了一种基于自由参考文献的多维度标准的度量方法,通过利用大型语言模型来评估问题的自然性、可回答性和复杂性,该度量方法不受单个参考问题的句法或语义限制,也不需要多样化的参考文献集合。实验证明,该度量方法能够准确区分高质量问题和有缺陷的问题,并与人类判断达到最先进的一致性。