基于LSTM的跨语句信息表示的Transformer语言模型
XLSR是一种学习跨语言语音表示的模型,通过对多种语言的语音原始波形进行预训练来构建模型,上述模型建立在wav2vec 2.0的基础之上,可以使用单一模型完成多语言语音识别任务,并且具有更好的性能。
Jun, 2020
使用贝叶斯学习框架和变分推断优化,提高了Transformer神经语言模型的泛化性能和模型鲁棒性。在Switchboard语料库和DementiaBank中的实验都获得了明显的性能提升。
Feb, 2021
本论文通过改进优化器、使用说话者向量嵌入和替代的语音表示,以及采用概率比率方法补偿解码模型,成功降低了LSTM系统在Switchboard-300上相对识别误差4%,并在Hub5'00的SWB和CHM部分报告了5.9%和11.5%的字误率,并在Switchboard-300上实现了新的最佳结果,同时探讨了conformer和更先进的自注意力语言模型及其对现有性能的贡献。
May, 2021
本文介绍了XLS-R,这是一个基于Wav2vec 2.0的用于跨语言语音表示学习的大规模模型,其在128种语言的近半百万小时的公开语音音频数据上进行训练,并取得了广泛的评估表现。我们的研究致力于提升语音处理任务在更多的世界语言上的表现。
Nov, 2021
本文提出了一种基于Transformer的端到端架构方法,在自动语音识别中精确建模跨话语的语境依赖,通过引入上下文感知残余注意机制,对先前语音的上下文进行编码,同时,还采用条件解码器框架将历史语言信息融入到当前预测中,结果表明该方法在几种公开对话语料库上都取得了持续的改进
Jul, 2022
本文介绍了一种使用Speech2Text适配器的联合语音和语言模型,用于桥接语音和语言表示之间的差距,并改进对话状态跟踪性能(DST),并通过Speech2Entity检索器增强了SLM的性能。
Jun, 2023
我们提出了一种新的浅层融合(SF)方法,利用外部的后向语言模型(BLM)来进行端到端自动语音识别(ASR)。在实验中,我们证实了浅层融合(SF)和迭代浅层融合(ISF)以及正向语言模型(FLM)之间的互补性,以及部分可识别句子感知的后向语言模型(PBLM)的应用能够提高ASR的性能。
Oct, 2023
本研究针对当前大型语言模型在多说话者场景中的应用缺乏,首次探讨了其在这些复杂环境中进行转录的潜力。通过结合WavLM和Whisper编码器提取多维语音特征,并将其输入到微调的LLM中,我们展示了MT-LLM系统在鸡尾酒会场景中的优异表现,证明了LLM在遵循用户指令进行语音处理方面的巨大潜力。
Sep, 2024