ACLMay, 2023

人类解释总是有帮助的吗?走向对人类自然语言解释客观评估

TL;DR该研究提出了一种新的度量人工注释解释质量的指标,即帮助性指标,以比较传统的模拟能力评分。在五个数据集和两种模型架构上对该指标进行了评估,结果表明其能够客观地评估注释解释的质量,同时传统的模拟能力评分则不能。