MOSEL：使用动态模态选择的推理服务

Oct, 2023

MOSEL：使用动态模态选择的推理服务

MOSEL: Inference Serving Using Dynamic Modality Selection

Bodun Hu, Le Xu, Jeongyoon Moon, Neeraja J. Yadwadkar, Aditya Akella

TL;DR本文介绍了一种自适应地选择多种模态的推理输入，以满足性能和精确性要求的自动化推理服务系统 MOSEL，通过广泛利用模态配置，提高系统吞吐量 3.6 倍，缩短作业完成时间 11 倍。

Abstract

Rapid advancements over the years have helped machine learning models reach previously hard-to-achieve goals, sometimes even exceeding human capabilities. However, to attain the desired accuracy, the model sizes and in turn their →

machine learning models computational requirements modality selection mosel inference serving system

发现论文，激发创造

多模导向网络用于缺失模态推断

提出了一种通过引导网络在训练阶段促进知识共享，利用多模式表示训练用于推理的更好的单模式模型，以解决存在缺失模式的多模态模型应用受限和过高计算成本的问题。通过真实生活中的暴力检测实验证明，所提出的框架训练的单模式模型明显优于传统训练的模型，并且推理成本相同。

Sep, 2023

动态多模式及视角选择用于缺失模态的多模式情感识别

这项研究的重点是评估两种策略在缺少一个感知模态的情况下的表现和韧性：一种新颖的多模式动态模态和视角选择方法以及一种交叉注意机制。RECOLA 数据集上的结果表明动态选择方法是一种有前景的多模态情感识别方法。在缺失模态的场景下，所有基于动态选择的方法都优于基准测试。研究总结强调了音频和视频模态在情感预测中的复杂相互作用，展示了动态选择方法在处理缺失模态方面的适应性。

Apr, 2024

ModSelect: 为合成与真实域通用化自动选择模态

本研究提出了一种无监督模态选择方法，即 ModSelect，通过计算多模态分类器的预测之间的相关性和其嵌入的域差异，从而系统地计算模态选择阈值，选择只具有高相关性和低域差异的模态，从而达到选择正向贡献模态的目的，并在合成到真实领域自适应基准测试中表现出稳健的性能提升。

Aug, 2022

SE-MoE：一种可扩展且高效的专家混合分布式训练和推断系统

本文提出了 SE-MoE 模型，通过引入 Elastic MoE training、2D prefetch 和 Fusion communication 等技术，实现 Mixture-of-Experts 模型在分布式、异构计算系统上的高效训练和推理，即使在非均衡任务中也可以显著提升吞吐量同时减少内存开销。作者通过实验证明，与 DeepSpeed 相比，SE-MoE 在训练和推断中的吞吐量分别提高了 33％和 13％。

May, 2022

动态多模态融合

本文提出了一种动态多模态融合的方法，可以在预测过程中根据数据的不同需求自适应地融合多模态数据，从而有效地减少计算成本，并在多个多模态任务上获得了良好的效果，这为动态多模态网络设计开辟了一条新的方向。

Mar, 2022

模态即插即用：多模态低水平语言模型中的弹性模态适应

通过将单模编码器与一组灵活的最后 LLM 块连接并使这些潜在连接在运行时完全可训练，mPnP-LLM 能够实现完全弹性、自动化和及时的运行时模态适应，同时在存在方案的情况下保持相当的准确性。

Dec, 2023

AdaMML：自适应多模态学习用于高效视频识别

本文提出了一种自适应多模态学习框架 AdaMML，它使用多模态策略网络在视频识别过程中根据输入选择最佳模态，有效地提高准确性和效率，实验结果表明该方法相比传统基线方法能减少 35%-55% 的计算量，且在准确率方面也取得了一致的提升。

May, 2021

HOLMES: 重症监护室深度学习模型的健康在线模型集成服务

本文提出了一种在线模型集成服务框架 (HOLMES) 来应对医疗应用中的实时决策需求和准确性需求，在实现高精度的同时满足亚秒级的端到端预测延迟限制，通过测试证明其在儿童心脏 ICU 数据的风险预测任务上能够达到 95% 以上的预测准确率和亚秒级的预测延迟。

Aug, 2020

面向可适应优化算法的灵活准确性导向深度学习模块推断延迟预测框架

深度学习模型推理延迟预测的新框架和新方法 MEDN 在综合实验中展现了较高的准确性和 R 方值。

Dec, 2023

ModaVerse: 用 LLMs 高效转换模态

引入了 ModaVerse，一种多模态大型语言模型（MLLM），能够理解和转换图像、视频和音频等不同模态的内容。通过在自然语言层面上进行输入 / 输出对齐，避免了潜在特征对齐的复杂性，简化了现有 MLLM 的多个训练阶段，从而显著降低了数据和计算成本。在多个基准实验中，我们的方法取得与最先进技术相当的性能，同时在数据使用和训练时间上实现了显著的效率提升。

Jan, 2024