multimodal inputs | BriefGPT

关键词multimodal inputs

搜索结果 - 33

MultiFusion：预训练模型融合用于多语言，多模态图像生成
本文提出了一种名为 MultiFusion 的方法，利用预训练模型将多个语言和多模态输入整合到单一的图像生成模块中，从而大幅提高了效率。实验证明，MultiFusion 可以将各个独立的组件整合起来，使图像生成模块能够利用来自各种语言和模态
PDFa year ago
Perceiver-VL: 迭代潜在注意力的高效视觉语言建模
Perceiver-VL 是一个高效处理大量视觉和语言输入的框架，采用迭代潜在跨注意力技术，具有线性可扩展性和高效性，并在保持其竞争力能力的同时，在各种基准测试中取得最佳结果。
PDF2 years ago
COLING移动界面实现更优语义理解
通过对 RICO 数据集进行标注并使用多模态输入，该论文提出可提高移动设备的可访问性和自动化功能以便于使用的方法，使用户能够更好地了解 UI 元素的功能，并提出了一些创新性的功能，如通过标签引用 UI 元素，提高图标的语义等，以使 UI 对
PDF2 years ago
多模态知识对齐与强化学习
本论文提出了一种名为 ESPER 的方法，将仅基于语言的零 - shot 模型扩展到未见过的多模态任务，如图像和音频字幕生成，采用强化学习来无需直接监督地将多模态输入与语言模型生成对齐，实验表明该方法胜过了基线和之前工作的新基准测试。
PDF2 years ago
学习聆听：建模非确定性二元面部动作
该论文提出了一个交互式对话的建模框架，通过结合说话人的动作、对话音频和可能的相应听众动作输出来捕捉非口头双人互动的多模态和非确定性特征，还使用了运动 - 音频交叉注意力变换将说话人的运动和语音音频结合起来，并通过运动编码 VQ-VAE 学习
PDF2 years ago
基于 Co-Attention 的多层声学信息的语音情感识别
本文提出了一种使用新设计的共同关注机制和多层声学信息的端到端语音情感识别系统。这个系统将 MFCC、谱图和嵌入了高水平声学信息的 CNN、BiLSTM 和 wav2vec2 等多层声学信息提取出来，并使用共同关注机制融合提取出来的多模态输入
PDF2 years ago
一体化：探索统一的视视频 - 语言预训练
介绍了一种基于 all-in-one Transformer 的视频 - 语言端到端模型，采用新的 token rolling 操作，实现了视频数据的时间表示方式，同时赋予模型能够处理多模态输入的能力。该模型通过 fine-tuning 能
PDF2 years ago
医疗应用集成多模态人工智能框架
本研究提出并评估了一种综合人工智能在医学领域的框架（HAIM），以促进利用多模态输入实现人工智能系统的生成和测试，该框架可在医疗保健环境中进行研究和部署，并通过使用 Shapley 值量化每个模态和数据源的贡献，展示了多模态输入在不同医疗任
PDF2 years ago
ACLKM-BART：用于视觉常识生成的知识增强多模态 BART 模型
研究人员提出了一种称为 KM-BART 的知识增强的多模态序列到序列模型，可以从图像和文本的多模态输入中推理出常识知识，进而开发了新的预训练任务来提高模型在视觉常识生成任务中的性能，实验结果表明通过这些新的预训练任务，我们的模型在 VCG
PDF4 years ago
COLING多模态交互对话
本研究介绍了一种新的指向培训具有多模态输入上下文的代理，以及执行与其相关的多模态操作的模型 SIMMC，提供了两个 SIMMC 数据集，以及多个评估协议。
PDF4 years ago
基于多视角注意力网络的视觉对话
论文旨在通过提出 Multi-View Attention Network (MVAN) 模型来解决视觉对话任务中的挑战性问题，该模型基于注意机制，利用多个视角来处理异构输入，并且通过序列对齐过程构建多模态表示，从而可以更好地捕捉到对话历史
PDF4 years ago
矩阵神经网络
提出了一种矩阵神经网络（MatNet），通过双线性映射从上一层单元中感知总结信息，并方便地扩展到多模输入，应用于 MNIST 手写数字分类和图像超分辨率任务中，具有与最先进方法可比较的性能和大大降低的复杂性。
PDF8 years ago
ICLR深度学习用于机器人抓取检测
运用深度学习方法解决机器人抓取问题，通过多模态组规则化结构化正则化权重来处理多模态输入，实现了比之前最先进方法更好的效果，可成功在两个不同的机器人平台上执行抓取。
PDF11 years ago