基于 BERT 的辨别性语音识别重打分个性化

Jul, 2023

基于 BERT 的辨别性语音识别重打分个性化

Personalization for BERT-based Discriminative Speech Recognition Rescoring

Jari Kolehmainen, Yile Gu, Aditya Gourav, Prashanth Gurunath Shivakumar, Ankur Gandhe...

TL;DR研究三种新方法，使用个性化内容在神经重新评分步骤中提高识别率：地名词典，提示和基于交叉注意力的编码器 - 解码器模型。使用虚拟语音助手交互的内部去识别化的 en-US 数据和个性化的命名实体来比较这些方法，结果显示地名词典具有最优效果，词误率（WER）提高了 10％，同时在一般测试集上提高了 1％。

Abstract

Recognition of personalized content remains a challenge in end-to-end speech recognition. We explore three novel approaches that use personalized content in a →

personalized content neural rescoring gazetteers prompting cross-attention

发现论文，激发创造

端到端语音识别系统的个性化策略

本文提出一种新的基于第一、第二次遍历的重评分策略，以及浅层融合的方法来解决个人化内容识别在端对端语音识别系统中的挑战，并展示了在子词级别上实现这种偏向，大大提高了个性化内容识别的准确性，同时保证了一般用例下识别准确度的最小降低。

Feb, 2021

低资源命名实体识别的软性地名词典

该研究提出了一种 “软型 Gazetteer” 的方法，通过跨语言实体联接将英语知识库中的广泛信息引入神经命名实体识别模型，以解决在低资源语言中设计手动特征的问题，并在 4 种低资源语言上进行了实验证明。

May, 2020

移动设备端基于端到端语音识别的个性化命名实体识别

通过使用不同的个性化技术来提高语音识别的效果，我们提出了一种基于关键词精度和召回率的词汇获取性能评估方法，并在设计的包含难以识别人名的数据集上进行了算法评估，其中，数据合成方法可以将基线的人名召回率从 2.4% 提高到 48.6%。在进行名字修正的情况下，名字召回率可提高至 64.4%。通过在移动设备上执行整个个性化工作流程，我们摆脱了上传用户数据和在服务器上存储个性化模型的需要。

Dec, 2019

虚拟助手的辨别式实体感知语言模型

本文研究提出了一种基于知识图谱的语言建模方法，通过有效的格栅重排过程，达到了相对句子错误率的降低，为虚拟助手 ASR 的精度提高提供了强有力的支持。

Jun, 2021

使用神经联想记忆进行快速上下文适应，提高设备端个性化语音识别

本文介绍一种基于模型的端到端语境自适应方法，它不依赖于解码器，适合用于设备上的个性化训练，实验结果表明，相比传统的重新评分技术，在连续个性化场景中，该方法可以使相对识别率（WER）提高 12％，实体提及特定 F1 得分提高 15.7％。

Oct, 2021

大型语言模型的命名实体上下文偏置

该研究探讨了大型语言模型（LLMs）中的上下文偏置，其中在二次通过重新评分期间，提供了额外的上下文信息以提升自动语音识别（ASR）性能。研究提议在重新评分期间利用提示方式对 LLM 进行偏置，其中包括偏置列表和少量示例，以作为计算假设得分时的额外信息。除了少量示例学习，该研究还提出了 LLM 的多任务训练，以预测实体类别和下一个标记。为了改进上下文偏置的效率并避免超过 LLM 的最大序列长度，该研究提出了动态提示，其中利用类别标签预测选择最可能的类别，并仅将该类别中的实体用作下一个标记预测的上下文。在内部通话、消息和听写数据集以及 SLUE-Voxpopuli 数据集上进行了字错误率（WER）评估。结果表明，偏置列表和少量示例相对于第一次通过 ASR 可以分别实现 17.8% 和 9.6% 的改善，而多任务训练和动态提示则可以分别实现 20.0% 和 11.3% 的相对 WER 改善。

Sep, 2023

探索上下文和嵌入在神经命名实体识别模型中在任务定向对话系统中的重要性

本文通过在任务导向的对话系统中评估经过修改的最新神经网络架构的性能，研究了从文本、字符特征和外部语料库中训练的词嵌入的使用方式，并探讨了前一个话语作为附加特征的不同组合，以及在添加自动翻译的英语 - 翻译和英语 - 转录版本到英语数据集后的实验重复性。

Dec, 2018

检索与复制：将 ASR 个性化扩展至大规模目录

针对自动语音识别模型的个性化问题，我们提出了一种 “检索和复制” 机制和训练策略，以改善稀有词汇和特定领域实体的识别精度，实验结果显示与基线相比，我们的方法在词错误率降低 6%，F1 得分提高 3.6%，且在每个声学帧至少提升 20% 推理速度的同时可容纳多达 20K 的大型目录。

Nov, 2023

个性化对话响应生成中的检索增强上下文感知前缀编码器

本研究提出了一种基于检索增强的个性化响应生成方法，通过在对话领域数据上设计分层的 Transformer 检索器和上下文感知前缀编码器，将检索到的信息更有效地融合到解码器中，从而在英语 Reddit 对话中生成更流畅和个性化的响应，与现有技术相比性能更优。

Jun, 2023

基于发音驱动的子词切分的 CTC 端到端语音识别个性化

使用深度学习和自动语音识别相结合的端到端语音识别系统在识别个人内容（如联系人姓名）方面的准确率有所提高，但仍存在挑战。本研究描述了我们基于连接主义时序分类的端到端语音识别系统的个性化解决方案，通过建立在以往研究的基础上，提出了一种从发音生成个人实体的附加子词划分的新方法。我们证明，在结合了上下文偏置和词片段先验归一化这两个已有技术的基础上，我们能够获得与具备竞争力的混合系统相当的个人命名实体准确性。

Oct, 2023