虚拟代理的端对端口语实体提取
本文研究了直接将语音输入转换为语义实体的端到端口语理解系统,探索了这些端到端系统是否可以仅使用语义实体注释进行训练,并且使用注意力机制的编码器 - 解码器模型的效果最佳。
Sep, 2020
本文介绍了第一个公开的针对英语语音的命名实体识别 (NER) 数据集,并提出了一种端到端的方法,该方法同时优化 ASR 和 NER 标记器的组件。实验结果表明,所提出的端到端方法优于经典的两步方法,并讨论了如何使用语音的 NER 来处理 ASR 系统中的词汇外单词 (OOV)。
May, 2020
本文介绍了一种建立在双向编码器变换器(BERT)架构上的命名实体识别(NER)模型的方法,具体使用了 SlovakBERT 模型。该 NER 模型从语音转文本转录获取的数据中提取地址部分。由于真实数据的稀缺性,使用 GPT API 生成了一个合成数据集。强调了在这种人工数据中模仿口语变异的重要性。我们的 NER 模型仅使用合成数据进行训练,并使用小型真实测试数据集进行评估。
Feb, 2024
该研究通过一种端到端的神经架构,直接从语音中提取命名实体,并针对语音识别和命名实体识别进行联合优化,相较于传统的流水线方法,实现了更好的命名实体识别结果(测试数据的 F-measure=0.69)
May, 2018
本文介绍了利用两类 E2E 模型(RNN 转录器和基于注意力的编码器 - 解码器)进行口语语言理解系统的语义实体预测的研究,以及提出的一种数据增强技术和一种隐式注意力对齐方法来推断口语顺序,从而提高 E2E SLU 模型的性能。相较于以前报导的结果,F1 分数显著提高了超过 11%(对于 RNN-T)和约 2%(对于基于注意力的编码器 - 解码器)。
Jan, 2022
本文提出了一种多任务联合训练的端到端语音理解模型 “Audio-Text All-Task (AT-AT) Model”,该模型能够同时训练语音转文字、语音理解和文本理解任务,不仅可以在多个数据集上实现最优性能,还可用于零 - shot 端到端语音理解任务。
Dec, 2020
使用具有优秀语音转文本能力的双阶段网络将客户对话转换为文本,然后使用 NER BERT 转换器模型提取信息实现实体提取以优化客户体验。
Nov, 2022
本文提出了一种基于外部模型训练的新型端到端神经模型,用于提取语音信号中的语义信息,并使用 SLU 神经模块替换 ASR 模型的顶层,实现端到端模型的构建。实验结果表明,此方法在 QUAERO 语料库上具有很高的性能。
Apr, 2022
本文探讨了如何利用在特定环境下出现的命名实体词典来提高语音转文本模型的准确性, 实验证明使用 NE 词典可以有效提高命名实体的准确性,降低人名错误率达 31%。
Oct, 2022
本研究利用荷兰语、英语和德语之间的跨语言转移学习,使用管道和端到端(E2E)方案,利用自定义伪标注数据集的 Wav2Vec2-XLS-R 模型,研究了几种跨语言系统的适应性,结果表明,端到端的口语命名实体识别优于基于管道的替代方案。 转移学习从德语到荷兰语的效果比荷兰语 E2E 系统高 7%,比管道系统高 4%。
Jul, 2023