基于LSTM的跨语句信息表示的Transformer语言模型

Feb, 2021

基于LSTM的跨语句信息表示的Transformer语言模型

Transformer Language Models with LSTM-based Cross-utterance Information Representation

G. Sun, C. Zhang, P. C. Woodland

TL;DR本文提出了一种基于LSTM模型的R-TLM模型，该模型可以更好地将跨utterance信息编码到Transformer语言模型中，经过实验发现，R-TLM模型在语音识别中可以取得更好的效果。

Abstract

The effective incorporation of cross-utterance information has the potential to improve language models (LMs) for automatic speech recognition

发现论文，激发创造

无监督跨语言表示学习用于语音识别

XLSR是一种学习跨语言语音表示的模型，通过对多种语言的语音原始波形进行预训练来构建模型，上述模型建立在wav2vec 2.0的基础之上，可以使用单一模型完成多语言语音识别任务，并且具有更好的性能。

Jun, 2020

贝叶斯Transformer语言模型在语音识别中的应用

使用贝叶斯学习框架和变分推断优化，提高了Transformer神经语言模型的泛化性能和模型鲁棒性。在Switchboard语料库和DementiaBank中的实验都获得了明显的性能提升。

Feb, 2021

英语会话语音识别的极限探讨

本论文通过改进优化器、使用说话者向量嵌入和替代的语音表示，以及采用概率比率方法补偿解码模型，成功降低了LSTM系统在Switchboard-300上相对识别误差4%，并在Hub5'00的SWB和CHM部分报告了5.9%和11.5%的字误率，并在Switchboard-300上实现了新的最佳结果，同时探讨了conformer和更先进的自注意力语言模型及其对现有性能的贡献。

May, 2021

XLS-R: 在大规模自监督下进行跨语言语音表示学习

本文介绍了XLS-R，这是一个基于Wav2vec 2.0的用于跨语言语音表示学习的大规模模型，其在128种语言的近半百万小时的公开语音音频数据上进行训练，并取得了广泛的评估表现。我们的研究致力于提升语音处理任务在更多的世界语言上的表现。

Nov, 2021

自动语音识别多语言模型综述

该论文研究了基于跨语言转移的多语种自动语音识别模型的最新进展和最佳实践，并探讨了未来的研究方向和建议。

Feb, 2022

基于句间注意力机制改进基于 Transformer 的对话语音识别

本文提出了一种基于Transformer的端到端架构方法，在自动语音识别中精确建模跨话语的语境依赖，通过引入上下文感知残余注意机制，对先前语音的上下文进行编码，同时，还采用条件解码器框架将历史语言信息融入到当前预测中，结果表明该方法在几种公开对话语料库上都取得了持续的改进

Jul, 2022

语音转文本适配器和语音到实体检索器增强的LLMs用于语音理解

本文介绍了一种使用Speech2Text适配器的联合语音和语言模型，用于桥接语音和语言表示之间的差距，并改进对话状态跟踪性能（DST），并通过Speech2Entity检索器增强了SLM的性能。

Jun, 2023

利用跨句语境进行ASR解码

研究通过束搜索集成具有长期上下文的变压器语言模型进行跨话语语音模型的解码，并与n-best重排序的结果进行比较。结果表明，束搜索允许更好地利用跨话语语境。

Jun, 2023

反向语言模型的迭代浅融合用于端到端语音识别

我们提出了一种新的浅层融合（SF）方法，利用外部的后向语言模型（BLM）来进行端到端自动语音识别（ASR）。在实验中，我们证实了浅层融合（SF）和迭代浅层融合（ISF）以及正向语言模型（FLM）之间的互补性，以及部分可识别句子感知的后向语言模型（PBLM）的应用能够提高ASR的性能。

Oct, 2023

大型语言模型可以在多说话者场景中根据多样化指令进行语音转录

本研究针对当前大型语言模型在多说话者场景中的应用缺乏，首次探讨了其在这些复杂环境中进行转录的潜力。通过结合WavLM和Whisper编码器提取多维语音特征，并将其输入到微调的LLM中，我们展示了MT-LLM系统在鸡尾酒会场景中的优异表现，证明了LLM在遵循用户指令进行语音处理方面的巨大潜力。

Sep, 2024