基于 BERT 的辨别性语音识别重打分个性化
本文提出一种新的基于第一、第二次遍历的重评分策略,以及浅层融合的方法来解决个人化内容识别在端对端语音识别系统中的挑战,并展示了在子词级别上实现这种偏向,大大提高了个性化内容识别的准确性,同时保证了一般用例下识别准确度的最小降低。
Feb, 2021
该研究提出了一种 “软型 Gazetteer” 的方法,通过跨语言实体联接将英语知识库中的广泛信息引入神经命名实体识别模型,以解决在低资源语言中设计手动特征的问题,并在 4 种低资源语言上进行了实验证明。
May, 2020
通过使用不同的个性化技术来提高语音识别的效果,我们提出了一种基于关键词精度和召回率的词汇获取性能评估方法,并在设计的包含难以识别人名的数据集上进行了算法评估,其中,数据合成方法可以将基线的人名召回率从 2.4% 提高到 48.6%。在进行名字修正的情况下,名字召回率可提高至 64.4%。通过在移动设备上执行整个个性化工作流程,我们摆脱了上传用户数据和在服务器上存储个性化模型的需要。
Dec, 2019
本文介绍一种基于模型的端到端语境自适应方法,它不依赖于解码器,适合用于设备上的个性化训练,实验结果表明,相比传统的重新评分技术,在连续个性化场景中,该方法可以使相对识别率(WER)提高 12%,实体提及特定 F1 得分提高 15.7%。
Oct, 2021
该研究探讨了大型语言模型(LLMs)中的上下文偏置,其中在二次通过重新评分期间,提供了额外的上下文信息以提升自动语音识别(ASR)性能。研究提议在重新评分期间利用提示方式对 LLM 进行偏置,其中包括偏置列表和少量示例,以作为计算假设得分时的额外信息。除了少量示例学习,该研究还提出了 LLM 的多任务训练,以预测实体类别和下一个标记。为了改进上下文偏置的效率并避免超过 LLM 的最大序列长度,该研究提出了动态提示,其中利用类别标签预测选择最可能的类别,并仅将该类别中的实体用作下一个标记预测的上下文。在内部通话、消息和听写数据集以及 SLUE-Voxpopuli 数据集上进行了字错误率(WER)评估。结果表明,偏置列表和少量示例相对于第一次通过 ASR 可以分别实现 17.8% 和 9.6% 的改善,而多任务训练和动态提示则可以分别实现 20.0% 和 11.3% 的相对 WER 改善。
Sep, 2023
本文通过在任务导向的对话系统中评估经过修改的最新神经网络架构的性能,研究了从文本、字符特征和外部语料库中训练的词嵌入的使用方式,并探讨了前一个话语作为附加特征的不同组合,以及在添加自动翻译的英语 - 翻译和英语 - 转录版本到英语数据集后的实验重复性。
Dec, 2018
针对自动语音识别模型的个性化问题,我们提出了一种 “检索和复制” 机制和训练策略,以改善稀有词汇和特定领域实体的识别精度,实验结果显示与基线相比,我们的方法在词错误率降低 6%,F1 得分提高 3.6%,且在每个声学帧至少提升 20% 推理速度的同时可容纳多达 20K 的大型目录。
Nov, 2023
本研究提出了一种基于检索增强的个性化响应生成方法,通过在对话领域数据上设计分层的 Transformer 检索器和上下文感知前缀编码器,将检索到的信息更有效地融合到解码器中,从而在英语 Reddit 对话中生成更流畅和个性化的响应,与现有技术相比性能更优。
Jun, 2023
使用深度学习和自动语音识别相结合的端到端语音识别系统在识别个人内容(如联系人姓名)方面的准确率有所提高,但仍存在挑战。本研究描述了我们基于连接主义时序分类的端到端语音识别系统的个性化解决方案,通过建立在以往研究的基础上,提出了一种从发音生成个人实体的附加子词划分的新方法。我们证明,在结合了上下文偏置和词片段先验归一化这两个已有技术的基础上,我们能够获得与具备竞争力的混合系统相当的个人命名实体准确性。
Oct, 2023