虚拟代理的端对端口语实体提取

Feb, 2023

E2E Spoken Entity Extraction for Virtual Agents

Karan Singla, Yeon-Jun Kim, Srinivas Bangalore

TL;DR本文探讨了利用语音编码器从语音中直接提取实体的方法，研究表明这种直接的方法优化了编码器以仅转录语音中与实体相关的部分，忽略不必要的部分，并且在企业虚拟代理的对话中，优于传统的两步法。

Abstract

This paper reimagines some aspects of speech processing using speech encoders, specifically about extracting entities directly from speech, with no intermediate textual representation. In human-computer conversations, extracting entities such as names, postal addresses and email addres

speech processing speech encoders entity extraction fine-tuning virtual agent

发现论文，激发创造

无全文本端到端口语理解

本文研究了直接将语音输入转换为语义实体的端到端口语理解系统，探索了这些端到端系统是否可以仅使用语义实体注释进行训练，并且使用注意力机制的编码器 - 解码器模型的效果最佳。

Sep, 2020

英文语音端到端命名实体识别

本文介绍了第一个公开的针对英语语音的命名实体识别 (NER) 数据集，并提出了一种端到端的方法，该方法同时优化 ASR 和 NER 标记器的组件。实验结果表明，所提出的端到端方法优于经典的两步方法，并讨论了如何使用语音的 NER 来处理 ASR 系统中的词汇外单词 (OOV)。

May, 2020

使用合成数据进行语音转文本中地址提取的命名实体识别

本文介绍了一种建立在双向编码器变换器（BERT）架构上的命名实体识别（NER）模型的方法，具体使用了 SlovakBERT 模型。该 NER 模型从语音转文本转录获取的数据中提取地址部分。由于真实数据的稀缺性，使用 GPT API 生成了一个合成数据集。强调了在这种人工数据中模仿口语变异的重要性。我们的 NER 模型仅使用合成数据进行训练，并使用小型真实测试数据集进行评估。

Feb, 2024

基于端到端的语音命名实体提取

该研究通过一种端到端的神经架构，直接从语音中提取命名实体，并针对语音识别和命名实体识别进行联合优化，相较于传统的流水线方法，实现了更好的命名实体识别结果（测试数据的 F-measure=0.69）

May, 2018

提升口语理解中集合预测的端到端模型

本文介绍了利用两类 E2E 模型（RNN 转录器和基于注意力的编码器 - 解码器）进行口语语言理解系统的语义实体预测的研究，以及提出的一种数据增强技术和一种隐式注意力对齐方法来推断口语顺序，从而提高 E2E SLU 模型的性能。相较于以前报导的结果，F1 分数显著提高了超过 11％（对于 RNN-T）和约 2％（对于基于注意力的编码器 - 解码器）。

Jan, 2022

探索迁移学习用于端到端语音理解

本文提出了一种多任务联合训练的端到端语音理解模型 “Audio-Text All-Task (AT-AT) Model”，该模型能够同时训练语音转文字、语音理解和文本理解任务，不仅可以在多个数据集上实现最优性能，还可用于零 - shot 端到端语音理解任务。

Dec, 2020

使用语音识别和命名实体识别处理和提取客户对话中的关键实体

使用具有优秀语音转文本能力的双阶段网络将客户对话转换为文本，然后使用 NER BERT 转换器模型提取信息实现实体提取以优化客户体验。

Nov, 2022

无配对训练数据语音命名实体识别端到端模型

本文提出了一种基于外部模型训练的新型端到端神经模型，用于提取语音信号中的语义信息，并使用 SLU 神经模块替换 ASR 模型的顶层，实现端到端模型的构建。实验结果表明，此方法在 QUAERO 语料库上具有很高的性能。

Apr, 2022

直接言語翻譯中的命名實體檢測與注入

本文探讨了如何利用在特定环境下出现的命名实体词典来提高语音转文本模型的准确性，实验证明使用 NE 词典可以有效提高命名实体的准确性，降低人名错误率达 31%。

Oct, 2022

探索口语命名实体识别：跨语言视角

本研究利用荷兰语、英语和德语之间的跨语言转移学习，使用管道和端到端（E2E）方案，利用自定义伪标注数据集的 Wav2Vec2-XLS-R 模型，研究了几种跨语言系统的适应性，结果表明，端到端的口语命名实体识别优于基于管道的替代方案。转移学习从德语到荷兰语的效果比荷兰语 E2E 系统高 7％，比管道系统高 4％。

Jul, 2023