multi-modal input | BriefGPT

关键词multi-modal input

搜索结果 - 5

SHMamba: 面向音视频问答的结构化双曲线状态空间模型
提出了 SHMamba：结构化双曲状态空间模型，利用双曲几何和状态空间模型的优势，表示音频 - 视觉数据的分层结构和复杂关系。通过引入自适应曲率双曲对齐模块和交叉融合块，增强分层结构的理解和跨模态信息的动态交流。广泛实验证明，SHMamba
PDF19 days ago
音频驱动的预训练扩散模型生成与编辑
我们提出了一种能够在大规模图像扩散模型中实现音频条件的方法，通过将从音频剪辑中获取的特征映射到可以注入扩散模型的令牌中，引入了额外的音频 - 图像交叉注意力层，可以与扩散编辑方法相结合进行音频条件的图像编辑。
PDF2 months ago
Qilin-Med-VL: 面向通用医疗的中文大规模视觉语言模型
该研究介绍了 Qilin-Med-VL，首个中文大型视觉语言模型，旨在集成对图文数据的分析，通过预训练的 Vision Transformer 和基础语言模型的两阶段课程训练过程增强了生成医学字幕和回答复杂医学查询的能力，同时发布了由超过
PDF8 months ago
AAAI深度诗歌：一个中国古典诗歌生成系统
本文介绍了一个名为 Deep Poetry 的中国古典诗歌生成系统，它使用神经网络进行训练，并可以接受多模态输入。该系统可接受普通文本、图像或艺术概念等输入来生成中国古典诗歌，并且允许用户参与诗歌创作过程。该系统部署在微信小程序平台上，用户
PDF5 years ago
松弛对训练的多模态 AMD 分类双流 CNN
本研究提出了一种基于多模态输入的卷积神经网络自动分类年龄相关性黄斑变性的方法，并通过 Loose Pair 训练和类激活映射技术进行了优化，实验证明了该方法在多模态 AMD 分类方面的可行性。
PDF5 years ago