May, 2024

基于双编码和阈值重分类的改进型越界意图分类

TL;DR检测任务导向对话和意图分类中的超范围用户话语是至关重要的。我们提出了一种名为 DETER 的双编码器阈值重新分类的端到端框架,用于解决当前方法在处理异常值的不可预测分布上所面临的困难,并且不需要对数据分布或额外的后处理步骤做出假设。DETER 的核心利用双文本编码器 —— 通用句子编码器(USE)和基于 Transformer 的去噪自编码器(TSDAE),生成用户话语嵌入,通过分支神经架构进行分类。DETER 还利用自我监督生成合成异常值,并结合来自开放域数据集的超范围短语,确保了超范围检测的全面训练集。此外,基于阈值的重新分类机制对模型的初始预测进行细化。在 CLINC-150、Stackoverflow 和 Banking77 数据集上的评估证明了 DETER 的有效性,我们的模型在 CLINC-150 和 Stackoverflow 上的已知和未知意图的 F1 分数分别提高了 13% 和 5%,在 Banking77 上已知意图提高了 16%,未知意图提高了 24%。源代码已在此网址发布。