利用构建的代码切换数据增强大语言模型的多语言语音生成和识别能力
本文研究语言建模在代表代码切换语言的语境下在自动语音识别(ASR)中所存在的难题,针对三个难点分别提出解决方案:如何从缺乏大规模训练数据、ASR系统中与语言建模相关的性能测试的实现方法以及基于生成式模型所存在的缺陷,我们构建了一个独立于ASR系统和词汇选择的评估数据集和评估方式,并采用一种判别式训练方法,证明其比生成式更加有效。最后,我们探索了多种训练协议,并验证了使用大量单语数据随后加上小量的代码切换数据来进行精调训练的可行性。
Oct, 2018
本文通过大量实证研究探索了多语言大型语言模型在涉及语种切换的情况下情感分析、机器翻译和单词级别语言识别等任务的表现。研究显示,虽然这些模型在使用零 / 少量提示时在某些任务中表现出色,但与较小的微调模型相比,它们的性能仍然有所不适。因此,研究者认为未来需要进一步研究来完全弥合这一差距。
May, 2023
通过直接添加小型音频编码器,扩展大型语言模型的能力,实现与其文本版本相同的自动语音识别系统,并在Multilingual LibriSpeech上的实验证明,即使在LLM被冻结或者音频编码器使用几乎1秒的步幅生成更少嵌入时,多语种ASR仍然可行,从而为LLMs在长篇音频中进行操作开辟了可能性。
Jul, 2023
我们介绍了一种新颖有效的语音翻译模型LLM-ST,它基于预训练的大型语言模型(LLM),通过将LLM与语音编码器集成并使用多任务指导调优,LLM-ST能够准确地生成带时间戳的转录和翻译,甚至可以处理长时间的音频输入。此外,我们的研究结果表明,在LLM-ST的环境下使用CoT提示可以带来优势。通过对英语和中文数据集的严格实验,我们展示了LLM-ST的卓越性能,在语音翻译领域树立了新的基准。演示:this https URL
Dec, 2023
本文综合实证研究了如何增强大型语言模型(LLMs)的语音合成能力,比较了三种LLMs和语音合成模型(VALL-E)的集成方法,结果显示利用LLMs作为文本编码器的耦合方法取得了最佳性能,比原始语音合成模型在讲话者相似度和词错误率(WER)方面表现更好。
Dec, 2023
利用多语言语言模型与多语言语音编码器,本研究提出BLOOMZMMS,旨在为语音识别及其它领域利用大型语言模型的能力。通过多指令训练方法,我们验证了从文本到语音模态的语言知识的可传递性。实验证明,可以有效地学习并使多语言语音表征与多语言语言模型对齐。尽管初始表征在任务泛化方面存在局限性,但我们通过生成多指令样式的合成目标解决了这个问题。零样本评估结果证实了我们的方法在多种任务上的强大鲁棒性,包括语音翻译和多语言口语理解,从而为语音领域应用大型语言模型开辟了新的途径。
Apr, 2024
对大型语言模型(LLMs)在多语种环境中的应用进行了综述,包括训练和推理方法、模型安全性、多领域与语言文化、数据集使用,同时讨论了相关方面的主要挑战和潜在解决方案,并提出了进一步增强语言模型的未来研究方向。
May, 2024
通过构建两个数据集,将 LLaMA 和 BLOOM 的多语言能力扩展到 100 种语言,并使用 DPO 算法对 LLMs 进行与人类反馈的对齐,实现了对 100 种语言的支持,从而定义了最新的、支持 100 种语言的多语言 LLMs 的最新技术。
Jun, 2024
多语言大型语言模型在自然语言处理领域的研究人员和从业者中广受欢迎。本文介绍了多语言大型语言模型的技术方面,并对其底层架构、目标函数、预训练数据来源和分词方法进行了概述。此外,还探讨了不同模型类型的独特特征,包括仅编码器模型、仅解码器模型和编码器-解码器模型。同时,还讨论了多语言大型语言模型的一个重要局限性,即多语言之间的相互影响问题,并探究了克服这一问题的当前尝试。
Jun, 2024