粒度变更准确性：对话状态追踪的更精确性能度量

COLINGMar, 2024

粒度变更准确性：对话状态追踪的更精确性能度量

Granular Change Accuracy: A More Accurate Performance Metric for Dialogue State Tracking

Taha Aksu, Nancy F. Chen

TL;DR当前对话状态跟踪 (DST) 系统评估的指标存在三个主要限制：i) 错误地假定对话中的槽位均匀分布，ii) 忽略对个别对话进行部分评分，iii) 经常通过重复计算模型成功或失败的预测来高估或低估性能。为了解决这些缺点，我们引入了一种新的指标：Granular Change Accuracy (GCA)。GCA 侧重于评估整个对话历史中对话状态的预测变化。基准测试显示，GCA 能够有效减少由分布均匀性和错误位置引起的偏差，从而实现更精确的评估。值得注意的是，我们发现在评估少样本或零样本训练模型时，这些偏差尤为显著，并随着模型的错误率增加而变得更加明显。因此，GCA 在评估资源有限的模型时具有重要的潜力。我们的 GCA 实现是对 DST 指标库的有价值补充。

Abstract

Current metrics for evaluating dialogue state tracking (DST) systems exhibit three primary limitations. They: i) erroneously presume a uniform distribution of slots throughout the dialog, ii) neglect to assign pa

dialogue state tracking metrics granular change accuracy evaluation biases

发现论文，激发创造

灵活吸收逐轮表现的对话状态跟踪公正评价

本文介绍了对话状态跟踪的常用评估方法 Joint Goal Accuracy，分析了其缺陷，提出了一种新的评估指标 Flexible Goal Accuracy，该指标灵活地考虑了累计和单独分开预测的准确性，以提高对 DST 模型性能的鉴别力。

Apr, 2022

对话状态跟踪中的多轮对话和评估指标不匹配

本文提出了一种相对槽位准确性评估方法来补充对话状态跟踪任务中当前评估指标的缺陷，并鼓励使用各种补充评估指标来进行真实的评估。

Mar, 2022

零 - shot 对话状态跟踪的 ChatGPT：解决方案还是机会？

我们使用 ChatGPT ，一个通用语言模型，展示了它在零 - shot DST 上达到的最先进的表现，并证明了通用模型在专业系统替代方面的能力受到其属性的限制，但我们认为通用模型的语境学习能力很可能成为支持专门的动态对话状态跟踪器开发的有力工具。

Jun, 2023

认清优势：全面的对话状态跟踪诊断

通过我们的工具包 CheckDST，我们进行了标准化和全面的 DST 诊断，发现了不同类别的 DST 模型具有明显的优势和劣势，生成模型更适用于语言多样性，而基于跨度分类的模型对不可见实体更具鲁棒性，我们还发现了各个模型的失败模式，并通过预微调过程改善了生成模型的分布偏差问题。

Dec, 2021

全面研究：不同颗粒度的上下文信息如何影响对话状态跟踪？

研究了不同颗粒度的上下文信息如何影响对话状态跟踪，探索了不同颗粒度的影响程度，并讨论了如何结合多个颗粒度进行跟踪，并将所得结果应用于少样本学习场景。

May, 2021

使用 GPT-4 的二维零样本对话状态跟踪评估方法

我们提出了一种使用 GPT-4 的二维零样本评价方法，将对话状态跟踪 (DST) 评价分为准确性和完整性两个维度，并设计了两条手动推理路径来进一步提高评价准确性，实验结果表明我们的方法比基线方法取得了更好的性能，并且与传统的精确匹配方法一致。

Jun, 2024

通过示例引导的问答方式进行连续对话状态跟踪

通过将对话状态追踪重新构想为一个打包的例子指导的问题回答任务，以利于持续学习并减少服务特定的记忆，该方法通过学习在过程中上下文的例子以及结合对话层次的记忆回放方法，无需依赖于任何复杂的规范化或参数扩展方法，便可获得 DST 持续学习度量上的最先进性能。

May, 2023

向更真实的对话状态跟踪迈进：包括回退话语

研究表明，当前的基准数据集不足以处理在谈话中改变主意的情况，当 template-based 的 turnback utterances 注入到数据集中时，DST 模型无法参考之前的用户偏好，导致性能显著下降，但是当这些场景在训练集中被明确设计时，这种性能下降是能够得到恢复的，这表明问题不在 DST 模型本身，而在于基准数据集的构建。

Aug, 2021

可扩展的多领域对话状态跟踪

本文介绍了一种基于深度学习的可伸缩的多领域对话状态跟踪方法，通过引入一个新的状态跟踪框架，该框架独立于具体的槽值集合，并将对话状态表示为候选值集合的分布，此方法能够快速适应新领域，提高跨领域和可扩展性。

Dec, 2017

通过生成式问答实现对话状态跟踪中的零 - shot 泛化

研究了一种基于生成型问答和条件语言模型的不需要本体的 Dialog State Tracking 方法，具有较好的领域迁移效果。

Jan, 2021