可学习的损失交叉混合用于单声道语音增强
本研究提出了混合模态适应方法(MMA),它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁,实现图像和语言模型的联合优化,同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型,并在两种场景下进行了实验验证,表明其训练效率和性能竞争力均优于现有多模 LLMs,且具有成为通用聊天机器人的潜力。
May, 2023
该研究分析了不同的多模态指导调优方法,并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能,揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解,但当前方法存在局限性,未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题,这些发现阐明了适应图像理解的语言模型的现有方法学限制,并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。
Oct, 2023
本文综合实证研究了如何增强大型语言模型(LLMs)的语音合成能力,比较了三种 LLMs 和语音合成模型(VALL-E)的集成方法,结果显示利用 LLMs 作为文本编码器的耦合方法取得了最佳性能,比原始语音合成模型在讲话者相似度和词错误率(WER)方面表现更好。
Dec, 2023
在这项研究中,我们介绍了一种新的自监督语音转换(VC)架构,它可以用来学习将瞬时特征,如内容,与静态特征(如说话者 ID 或录音条件)分开进行编码,从而创建说话者解耦的表示。结果表明,训练过以说话者解耦的自监督表示的 Large Language Models(LLMs)相比于最先进的关联表示提高了 4.7 个百分点的说话者相似度,并降低了 5.4 个百分点的词错误率(WER)。此外,它们在自然性方面比 LibriTTS 测试集中的人类录音表现更好。最后,我们表明使用明确的参考嵌入对可读性(稳定性)产生负面影响,与仅使用文本来推断风格的模型相比,WER 增加了 14 个百分点。
Feb, 2024
本文介绍了一种仅有解码器的离散多模态语言模型(DMLM),可以灵活应用于多个任务(ASR,T2S,S2TT 等)和模态(文本,语音,视觉),并探索了离散多模态模型的几个关键方面,包括损失函数、权重初始化、混合监督训练和码本。结果表明,通过组合监督和无监督训练,DMLM 在多个任务和数据集上显著受益。此外,对于 ASR,它从预训练的大型语言模型(LLM)和由 Whisper 激活导出的码本中受益。
Jun, 2024
利用教师 - 学生框架从高性能的单语言模型中转移知识,构建了一个基于 MPLMs 的多语言分支模型(MBLM),并使用零射击感知的训练策略令模型从所有分支的零射击表示中学习,我们的方法仅使用任务的监督数据,提高了 MPLMs 的监督性能和零射击性能。
Feb, 2022
我们提出了一种有效利用 MLLMs 进行机器视觉治疗的方法,通过与去噪标签进行微调,以无监督的方式提高学习模型的性能,并通过提出的 DICL 策略解决了 MLLMs 与视觉任务的兼容性问题。
Dec, 2023
利用多语言语言模型与多语言语音编码器,本研究提出 BLOOMZMMS,旨在为语音识别及其它领域利用大型语言模型的能力。通过多指令训练方法,我们验证了从文本到语音模态的语言知识的可传递性。实验证明,可以有效地学习并使多语言语音表征与多语言语言模型对齐。尽管初始表征在任务泛化方面存在局限性,但我们通过生成多指令样式的合成目标解决了这个问题。零样本评估结果证实了我们的方法在多种任务上的强大鲁棒性,包括语音翻译和多语言口语理解,从而为语音领域应用大型语言模型开辟了新的途径。
Apr, 2024
研究论文简介:本文研究了大型语言模型在图像分类方面的应用,通过对多模态语言模型进行轻微微调,使用对比式图像 - 标题匹配目标,取得了比目前最先进的 MLLMs 提高了 13% 的图像分类性能,同时保留了语言模型的生成能力。
Dec, 2023
通过将单模编码器与一组灵活的最后 LLM 块连接并使这些潜在连接在运行时完全可训练,mPnP-LLM 能够实现完全弹性、自动化和及时的运行时模态适应,同时在存在方案的情况下保持相当的准确性。
Dec, 2023