COLINGMar, 2024

粒度变更准确性:对话状态追踪的更精确性能度量

TL;DR当前对话状态跟踪 (DST) 系统评估的指标存在三个主要限制:i) 错误地假定对话中的槽位均匀分布,ii) 忽略对个别对话进行部分评分,iii) 经常通过重复计算模型成功或失败的预测来高估或低估性能。为了解决这些缺点,我们引入了一种新的指标:Granular Change Accuracy (GCA)。GCA 侧重于评估整个对话历史中对话状态的预测变化。基准测试显示,GCA 能够有效减少由分布均匀性和错误位置引起的偏差,从而实现更精确的评估。值得注意的是,我们发现在评估少样本或零样本训练模型时,这些偏差尤为显著,并随着模型的错误率增加而变得更加明显。因此,GCA 在评估资源有限的模型时具有重要的潜力。我们的 GCA 实现是对 DST 指标库的有价值补充。