使用双语句编码器的高效意图检测
本文提出了一种对于细粒度、语义相似的意图进行 Few-shot 检测的方案,使用了对比自监督预训练和有监督对比学习的组合方式,在三种不同的具有挑战性的 Few-shot 意图检测数据集上实验,获得了最先进的表现。
Sep, 2021
提出了一种名为 ConveRT 的预训练框架用于对话任务,其采用一种检索式的响应选择任务来预训练轻量级双编码器,能够实现在显著提高性能的同时降低模型大小,进而应用于广泛的对话任务和意图分类任务中。
Nov, 2019
本文介绍了两种基于 Transformer 和 CNN 模型架构的预训练多语言句子编码模型,并使用基于翻译的桥接任务学习绑定表示将 16 种语言的文本嵌入到单一的语义空间中,以提高检索效率,与最先进的语义检索、翻译检索和检索问题回答模型相竞争,并在某些情况下超越了英文单语句子嵌入模型的表现水平。
Jul, 2019
在本研究中,我们采用回顾性方法,对比了 5 种现有的句子编码器,即 Sentence-BERT、Universal Sentence Encoder (USE)、LASER、InferSent 和 Doc2vec,在下游任务表现和捕获基本语义特征能力方面的表现。我们评估了这五种句子编码器在受欢迎的 SentEval 基准测试上的表现,发现多个句子编码器在各种受欢迎的下游任务上表现良好。然而,在所有情况下都没有找到一个单一的优胜者,因此,我们设计了进一步的实验来更深入地了解它们的行为。我们提出了四个语义评估标准:复述、同义词替换、反义词替换和句子混乱,并使用这些标准评估了同样的五种句子编码器。我们发现,Sentence-BERT 和 USE 模型通过了复述标准,其中 SBERT 在两者之间更为优越。在同义词替换标准方面,LASER 表现最佳。有趣的是,所有句子编码器都未通过反义词替换和句子混乱的标准。这些结果表明,尽管这些受欢迎的句子编码器在 SentEval 基准测试上表现良好,但它们仍然难以捕捉一些基本的语义特征,因此,在自然语言处理研究中面临严峻的困境。
Sep, 2023
利用句子编码器进行零样本主题推断任务时,Sentence-BERT 表现出与其他编码器相比的优越性能,而在效率是首要考虑因素时,通用句子编码器是首选;这一结论得到了对七个不同数据集的广泛实验的支持。
Apr, 2023
本文提出了一种用于多语言和跨语言口语数据意图检测的系统性研究,对该研究所介绍的一个新资源(MInDS-14)进行了利用,证明使用机器翻译模型和最先进的多语言句子编码器相结合能够在大多数 MInDS-14 所涵盖的目标语言中产生强大的意图检测器,并提供了针对不同维度(如零 - shot 学习与有限 - shot 学习、翻译方向、语音识别的影响)的比较分析。我们认为这项工作是在比以往的工作更广泛的语言范围内开发和评估多语意图检测器的重要一步。
Apr, 2021
本文介绍了在 NLP 领域中使用头部计算机视觉模型的性能以及使用 transformers 后的表现,探讨了这些模型在意图识别任务中的应用情况,发现造成性能差异的因素为任务的类别数量,提出了一个简单的基线模型,所有实现的模型都会被公开。
Jan, 2021
检测任务导向对话和意图分类中的超范围用户话语是至关重要的。我们提出了一种名为 DETER 的双编码器阈值重新分类的端到端框架,用于解决当前方法在处理异常值的不可预测分布上所面临的困难,并且不需要对数据分布或额外的后处理步骤做出假设。DETER 的核心利用双文本编码器 —— 通用句子编码器(USE)和基于 Transformer 的去噪自编码器(TSDAE),生成用户话语嵌入,通过分支神经架构进行分类。DETER 还利用自我监督生成合成异常值,并结合来自开放域数据集的超范围短语,确保了超范围检测的全面训练集。此外,基于阈值的重新分类机制对模型的初始预测进行细化。在 CLINC-150、Stackoverflow 和 Banking77 数据集上的评估证明了 DETER 的有效性,我们的模型在 CLINC-150 和 Stackoverflow 上的已知和未知意图的 F1 分数分别提高了 13% 和 5%,在 Banking77 上已知意图提高了 16%,未知意图提高了 24%。源代码已在此网址发布。
May, 2024
探讨了用于意图识别的广义零射击模式,并使用句子对建模方法,通过任务转移进一步提高性能,使用语境编码器的预训练技术使模型适用于主要且适应不断变化的应用。
Jun, 2022
本研究提出一种使用对比学习和伪标签的方法来预训练文本编码器,旨在提高任务导向对话系统中意图分类的性能。通过在四个意图分类数据集上进行实验,我们的预训练意图感知编码器 (PIE) 模型相比于现有最先进的预训练句子编码器,在 N 路零 / 一次测试中获得了高达 5.4% 和 4.0% 的精度提高。
May, 2023