利用跨句语境进行 ASR 解码

Jun, 2023

Leveraging Cross-Utterance Context For ASR Decoding

Robert Flynn, Anton Ragni

TL;DR研究通过束搜索集成具有长期上下文的变压器语言模型进行跨话语语音模型的解码，并与 n-best 重排序的结果进行比较。结果表明，束搜索允许更好地利用跨话语语境。

Abstract

While external language models (LMs) are often incorporated into the decoding stage of automated speech recognition systems, these models usually operate with limited context. Cross utterance information has been

automated speech recognition language models cross-utterance decoding transformer lms beam search

发现论文，激发创造

利用跨句上下文和多任务语言建模进行电子商务聊天机器人的语音识别适应

本文探讨了改进 Transformer-XL NLM 以重评 ASR N-best 提示的各种技术，包括利用上下文化、域自适应和多任务模型等方面；结果显示，模型的性能明显优于 LSTM LM 基准模型。

Jun, 2021

基于 LSTM 的跨语句信息表示的 Transformer 语言模型

本文提出了一种基于 LSTM 模型的 R-TLM 模型，该模型可以更好地将跨 utterance 信息编码到 Transformer 语言模型中，经过实验发现，R-TLM 模型在语音识别中可以取得更好的效果。

Feb, 2021

针对 Conformer 转录器语音识别系统的有效紧凑上下文表示

本文提出了一种能够学习到跨话语上下文特征的紧凑的低维度的特征表示方法，并通过在先前话语的历史向量上应用特殊设计的注意力池化层，来优化了基于 Conformer-Transducer 编码器的 ASR 系统，在 1000 小时的 Gigaspeech 语音语料上进行了实验，结果表明相对于仅使用话语内部语境的基线模型，该系统达到了 0.7% 至 0.5% 的绝对词错误率的统计显着降低（相对降低了 4.3% 至 3.1%）的效果。

Jun, 2023

利用大型语言模型进行端到端语音识别的语境化

通过引入一种新方法，结合大型语言模型（LLMs）来进行上下文化的语音识别模型，我们证明通过添加适配器的少量可训练参数，可以在保持相同的文本输入功能的同时，实现预训练 LLM 的上下文化语音识别能力并显著提高性能。

Sep, 2023

基于句间注意力机制改进基于 Transformer 的对话语音识别

本文提出了一种基于 Transformer 的端到端架构方法，在自动语音识别中精确建模跨话语的语境依赖，通过引入上下文感知残余注意机制，对先前语音的上下文进行编码，同时，还采用条件解码器框架将历史语言信息融入到当前预测中，结果表明该方法在几种公开对话语料库上都取得了持续的改进

Jul, 2022

利用声学情景表征通过音频文本跨模态学习用于会话 ASR

该研究提出了一种音频 - 文本交叉模态表示提取器，通过 attention 机制，将上下文文本表示作为上下文提供给 ASR 解码器，有效地提高了智能语音识别的性能。

Jul, 2022

通过学习音频 - 文本跨模态上下文表示实现会话语音识别

通过引入跨模态对话表示，结合预训练的语音和文本模型，扩展 Conformer 编码器 - 解码器模型，我们的方法能够提取更丰富的历史语音上下文，实现较标准 Conformer 模型相对准确度提升 8.8%（HKUST）和 23%（MagicData-RAMC）的结果。

Oct, 2023

长程语言模型是否实际上使用了长程上下文？

该研究分析了两个能够接受高达 8K Token 的长文本转换器语言模型，发现将长距离上下文提供给这些模型只会在少数 Token 上提高其预测能力（例如可以从远处文本中复制的 Token），对于句子级别的预测任务没有任何帮助；并且长范围上下文对文学小说的帮助最大。

Sep, 2021

基于大规模语言模型的长篇数据重打分

研究表明，在使用大规模语言模型的情况下，对于长篇 ASR 测试集，可以使 Word Error Eate 和 Salient Term Error Rate 分别减少 8% 和 30%。

Jun, 2023

语音识别的长跨度语言建模

本文探索多句子语境下神经语言模型的应用，并介绍结合了注意力机制和 LSTM 的新型模型在语音识别和长跨度语言模型方面的实验结果。

Nov, 2019