MISAR:一种具备增强现实的多模态指导系统
该论文介绍了一种名为 Audio-Visual LLM 的多模态大型语言模型,它通过同时接收视觉和听觉输入来进行综合视频理解。该模型的关键设计是模态增强训练,它通过集成专门设计的模态特定标记来有选择地激活适当的视觉和 / 或听觉编码器。此机制对于实现端到端的多模态视频数据联合训练至关重要。实验证明,Audio-Visual LLM 在各种视频理解任务中取得了令人印象深刻的零样本结果。
Dec, 2023
提出一种多模态自动语音识别模型(ViLaS),能够同时或分别集成视觉和语言线索来帮助识别输入语音,提出一种训练策略,从而提高在模态不完整的测试场景中的性能,并创建一个包含视觉和语言线索的多模态 ASR 数据集(VSDial),探索融合视觉和语言的效果。在 Flickr8K 和自构架构的 VSDial 数据集上进行实证结果报告,调查跨模态融合方案,并对 VSDial 上的细粒度跨模态对齐进行分析。
May, 2023
本文提出了一种多模式自动语音识别模型,通过考虑附带的视觉上下文来减少口头指令的错误转录,使用了仿真的噪声环境。实验结果表明,使用多模态 ASR 模型可使任务完成的准确性得到提高。
Feb, 2023
虚拟助手的交互通常以预定义的触发短语作为开端,我们探索是否可以放弃用户必须以触发短语开始每个指令的要求。通过三种方式进行实验:首先,只使用从音频波形中获得的声学信息来训练分类器;其次,将自动语音识别(ASR)系统的解码器输出,如 1 最佳假设,作为大型语言模型(LLM)的输入特征;最后,探索结合声学和词汇特征以及 ASR 解码器信号的多模态系统。使用多模态信息相对于仅文本和仅音频的模型,在等误差率上可以获得高达 39% 和 61% 的改进。增加 LLM 的规模,并使用低秩适应来进行训练,在我们的数据集上进一步降低了相对误差率高达 18%。
Mar, 2024
本文介绍了 Multimodal Scientific ASR(MS-ASR)任务,通过利用幻灯片的视觉信息来提高技术术语的准确性,从而改进科学会议视频的转录质量,提出了基于 Scientific Vision Augmented ASR(SciVASR)框架的方法,并在 GPT-4o 等最新的多模态大型语言模型的评估中显示出 45%的性能改进。
Jun, 2024
多模态生成技术的调查,介绍了不同领域中的重要进展,包括图像、视频、3D 和音频,研究了方法和数据集,还提出了使用现有生成模型进行人机交互的工具增强型多模态代理,同时探讨了人工智能安全问题和新兴应用及未来前景。
May, 2024
为了解决情感识别中的单模态方法在捕捉真实世界情感表达复杂性方面的局限性,我们提出了 MERR 数据集和 Emotion-LLaMA 模型,通过整合音频、视觉和文本输入,显著提高情感识别能力,并在 evaluations 中取得了优异的成绩。
Jun, 2024
本研究提出 Macaw-LLM,一种新型的多模式学习模型,可以无缝整合视觉、音频和文本信息,其中主要包括三个模块:一种用于编码多模式数据的模态模块,一种利用预训练 LLM 的认知模块,和一种用于协调多样化表示形式的对齐模块,并在此基础上构建了一个大规模的多模式指令数据集以应对复杂的实际场景。
Jun, 2023
我们提出了一种多模态模型 Mirasol3B,通过自回归机制,将多媒体输入分别处理并建模,同时使用分段和合并机制来处理视频和音频序列的长依赖性,从而实现了在多模态基准测试上的最佳结果。
Nov, 2023
我们介绍了一种开创性的多模态大型语言模型,能够在一个多轮对话中理解多图像、多音频和多图像 - 多音频。借助最先进的模型,我们利用 SigLIP 编码器进行视觉输入和 Whisper 编码器进行音频输入。值得注意的是,这个多模态大型语言模型是双语的,能够同时理解英文和马来文。我们自豪地推出了这个模型的两个版本:参数量为 1.1B 的 TinyLlama 和参数量为 7B 的 Mistral。我们的模型能够处理多样的模态和语言,代表了马来西亚及其他地区的重大进展。
Feb, 2024