MOSEL:使用动态模态选择的推理服务
提出了一种通过引导网络在训练阶段促进知识共享,利用多模式表示训练用于推理的更好的单模式模型,以解决存在缺失模式的多模态模型应用受限和过高计算成本的问题。通过真实生活中的暴力检测实验证明,所提出的框架训练的单模式模型明显优于传统训练的模型,并且推理成本相同。
Sep, 2023
这项研究的重点是评估两种策略在缺少一个感知模态的情况下的表现和韧性:一种新颖的多模式动态模态和视角选择方法以及一种交叉注意机制。RECOLA 数据集上的结果表明动态选择方法是一种有前景的多模态情感识别方法。在缺失模态的场景下,所有基于动态选择的方法都优于基准测试。研究总结强调了音频和视频模态在情感预测中的复杂相互作用,展示了动态选择方法在处理缺失模态方面的适应性。
Apr, 2024
本研究提出了一种无监督模态选择方法,即 ModSelect,通过计算多模态分类器的预测之间的相关性和其嵌入的域差异,从而系统地计算模态选择阈值,选择只具有高相关性和低域差异的模态,从而达到选择正向贡献模态的目的,并在合成到真实领域自适应基准测试中表现出稳健的性能提升。
Aug, 2022
本文提出了 SE-MoE 模型,通过引入 Elastic MoE training、2D prefetch 和 Fusion communication 等技术,实现 Mixture-of-Experts 模型在分布式、异构计算系统上的高效训练和推理,即使在非均衡任务中也可以显著提升吞吐量同时减少内存开销。作者通过实验证明,与 DeepSpeed 相比,SE-MoE 在训练和推断中的吞吐量分别提高了 33%和 13%。
May, 2022
本文提出了一种动态多模态融合的方法,可以在预测过程中根据数据的不同需求自适应地融合多模态数据,从而有效地减少计算成本,并在多个多模态任务上获得了良好的效果,这为动态多模态网络设计开辟了一条新的方向。
Mar, 2022
通过将单模编码器与一组灵活的最后 LLM 块连接并使这些潜在连接在运行时完全可训练,mPnP-LLM 能够实现完全弹性、自动化和及时的运行时模态适应,同时在存在方案的情况下保持相当的准确性。
Dec, 2023
本文提出了一种自适应多模态学习框架 AdaMML,它使用多模态策略网络在视频识别过程中根据输入选择最佳模态,有效地提高准确性和效率,实验结果表明该方法相比传统基线方法能减少 35%-55% 的计算量,且在准确率方面也取得了一致的提升。
May, 2021
本文提出了一种在线模型集成服务框架 (HOLMES) 来应对医疗应用中的实时决策需求和准确性需求,在实现高精度的同时满足亚秒级的端到端预测延迟限制,通过测试证明其在儿童心脏 ICU 数据的风险预测任务上能够达到 95% 以上的预测准确率和亚秒级的预测延迟。
Aug, 2020
引入了 ModaVerse,一种多模态大型语言模型(MLLM),能够理解和转换图像、视频和音频等不同模态的内容。通过在自然语言层面上进行输入 / 输出对齐,避免了潜在特征对齐的复杂性,简化了现有 MLLM 的多个训练阶段,从而显著降低了数据和计算成本。在多个基准实验中,我们的方法取得与最先进技术相当的性能,同时在数据使用和训练时间上实现了显著的效率提升。
Jan, 2024