虚拟助手的辨别式实体感知语言模型

Jun, 2021

虚拟助手的辨别式实体感知语言模型

A Discriminative Entity-Aware Language Model for Virtual Assistants

Mandana Saebi, Ernest Pusateri, Aaksha Meghawat, Christophe Van Gysel

TL;DR本文研究提出了一种基于知识图谱的语言建模方法，通过有效的格栅重排过程，达到了相对句子错误率的降低，为虚拟助手 ASR 的精度提高提供了强有力的支持。

Abstract

High-quality automatic speech recognition (ASR) is essential for virtual assistants (VAs) to work well. However, ASR often performs poorly on VA requests containing named entities. In this work, we start from the

automatic speech recognition virtual assistants named entities knowledge graph lattice rescoring

发现论文，激发创造

虚拟助手语音实体知识查询的服务器端重评分

通过在服务器端对口语信息领域查询使用各种类型的语言模型（N-gram 词语模型、子词神经模型）进行重计算，结合在设备上和服务器端的信号，通过整合各种服务器端语言模型相比仅在设备上执行 ASR，证明了在各种实体中心查询子群体中提高了 23%-35% 的字词错误率（WER）。此外，通过多个从头开始训练的服务器端语言模型的模型融合最有效地结合了每个模型的互补优势，并将领域特定数据所学到的知识集成到 VA ASR 系统中。

Nov, 2023

基于实体中心查询语言模型的节省空间表示

本文通过在有限状态转换器框架内使用概率语法，提出了一种对虚拟助手的语音识别有着较好性能的方法，适用于实体识别问题。使用该方法相较于相同大小的 n-gram 模型，长尾实体查询的相对单词错误率提高了 10%。

Jun, 2022

预测实体热度以改善虚拟助手的语音实体识别

本文提出了一种基于历史用户交互的实体流行度预测方法，将其整合到虚拟助手的语音识别组件中，从而有效提高其在发现未知实体方面的识别准确率。实验证明，该方法在不影响整体识别质量的前提下，在发现新实体名称时可以相对减少 20% 的错误率。

May, 2020

语义网络重新评分提升自动语音识别系统的上下文识别能力

我们提出了一种新方法，在自动语音识别系统中通过语义格处理利用深度学习模型来提高上下文识别的能力，从而准确地递交准确的转录结果，涵盖广泛的词汇和说话风格。我们在隐藏马尔可夫模型和高斯混合模型以及深度神经网络模型上融合语言和声学建模，通过使用基于 Transformer 的模型对单词格进行重新评分，实现了显著的性能提升和词错误率的明显降低，在 LibriSpeech 数据集上进行了实证分析，证明了我们提出的框架的有效性。

Oct, 2023

医学实体在口音语音中的高性能 ASR 模型

最近自动语音识别在医学领域取得了巨大进展，但对于有口音的医学术语的性能仍然不为人知。本文通过在包含 93 种非洲口音的临床英语数据集上严格评估多个自动语音识别模型，发现尽管某些模型在总体错误率上取得了很低的成绩，但临床术语上的错误率较高，可能对患者安全构成重大风险。为了实证这一点，我们从转录中提取了临床术语，开发了一种新算法来对齐自动语音识别的预测结果与这些术语，然后计算了医学术语的召回率、医学错误率和字符错误率。我们的结果表明，对有口音的临床语音进行微调可以大幅提高医学术语的错误率（相对提高 25-34%），从而提高了它们在医疗环境中的实际应用性。

Jun, 2024

语言引导的具身化智能体多模式语音识别

本文提出了一种多模式自动语音识别模型，通过考虑附带的视觉上下文来减少口头指令的错误转录，使用了仿真的噪声环境。实验结果表明，使用多模态 ASR 模型可使任务完成的准确性得到提高。

Feb, 2023

面向特定领域语音识别的深度学习系统

使用预训练的 DeepSpeech2 和 Wav2Vec2 声学模型，提出了基于领域的语音自动识别系统，并通过半监督机器注释的方式收集领域特定的数据，研究结果表明，该系统即使在具有更高的字词错误率的情况下，性能仍优于商业自动语音识别系统，且在人工转录的结果上也呈现出类似的效果。同时，也探讨了使用自动语音识别文字转录来辅助口语理解的可行性。

Mar, 2023

从嘈杂音频转录中提取生物医学实体

自动语音识别（ASR）技术是将口语转录为文本的基本技术，广泛应用于临床领域，包括简化医学转录和与电子健康记录（EHR）系统集成。然而，ASR-NLP 领域仍存在挑战，尤其是当转录中含有噪音时，导致自然语言处理（NLP）模型的性能显著下降。本论文介绍了一个新颖的数据集，BioASR-NER，旨在填补生物医学领域 ASR-NLP 差距，重点提取不良药物反应和 Brief Test of Adult Cognition by Telephone（BTACT）考试中实体的提及。我们的数据集提供了近 2000 个干净和有噪音的录音。针对噪音挑战，我们提出了一种使用 GPT4 的创新的文本清理方法，并研究了零样本和少样本方法。我们的研究进一步进行了错误分析，揭示了转录软件中的错误类型、GPT4 的纠正和 GPT4 面临的挑战。本论文旨在促进对 ASR-NLP 差距的更好理解和潜在解决方案，最终支持改进的医疗文档化实践。

Mar, 2024

视觉语境能否提高具有体现特征的智能体自动语音识别的性能？

本文介绍了一种利用视觉信息，通过新的解码器偏置技术将机器人的语音识别能力改进来识别含有可见实体描述的口语，以提高自动语音识别系统在机器人上的鲁棒性能，并取得了 %59 的相对错误率降低。

Oct, 2022

语音助手中噪声鲁棒命名实体识别

本文提出了一个新的架构，通过联合重排序模块将 NER 和 EL 任务相结合，提高 NER 和 EL 的准确性，同时还可以提高其他自然语言理解任务（如域分类和语义解析）的准确性。

May, 2020