Jun, 2024

使用 GPT-4 的二维零样本对话状态跟踪评估方法

TL;DR我们提出了一种使用 GPT-4 的二维零样本评价方法,将对话状态跟踪 (DST) 评价分为准确性和完整性两个维度,并设计了两条手动推理路径来进一步提高评价准确性,实验结果表明我们的方法比基线方法取得了更好的性能,并且与传统的精确匹配方法一致。