- 探索使用真实数据集的多模式机器翻译中视觉模态的必要性
近期在多模式机器翻译(MMT)领域的研究表明,视觉模态在翻译效果方面要么可有可无,要么只提供了边缘化优势。然而,这些结论大多来自于对有限的双语句子 - 图像配对数据集(如 Multi30k)的实验结果分析,而这类数据集中,一个双语平行句对的 - 利用 VLM-LLM 特征进行渐进对齐以增强 ASE 数据集中的缺陷分类
我们提出了 ASE 数据集,其中包含丰富的图像数据描述,用于缺陷分类,但缺陷特征难以直接学习。我们通过使用专门的视觉语言模型(VLM)和大型语言模型(LLM)的惊人零样本能力,为差异分类问题提供了解决方案。我们通过在图像中激活额外的多模态特 - 利用多模态 CLIP 揭示广义类别的潜力
通过引入文本信息和多模态潜力的方法,在广义类别发现任务中,我们提出了一种基于文本嵌入综合器的模型,该模型生成用于未标记样本的伪文本嵌入,并通过视觉和语义信息的相互增强,超越了现有方法,在所有广义类别发现基准上取得了新的最佳效果。
- 对比式视觉 - 语言对齐提高指示学习效率
通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐,我们提出了 CG-VLM 模型,有效地实现了视觉 - 语言的对齐,成为一种高效的指令学习器。
- 多模态实体对齐中的不确定缺失和模糊视觉模态的重新思考
在多模态实体对齐研究中,我们发现当前模型普遍面临视觉模态不完整性、遗漏模态和模态歧义带来的挑战。为了解决这些问题,我们提出了 UMAEA 方法,通过有效减少参数和时间消耗,显著超越现有基准,并成功缓解了其他模型存在的限制。
- ACLCFSum:一种用于多模态摘要的粗粒度到细粒度贡献网络
我们提出了一种新的粗略到精细的多模态总结贡献网络 (CFSum),以考虑图像在总结中的不同贡献。CFSum 在标准基准测试中明显优于多个强基线,并通过分析验证了图像对生成隐含在图像中的非视觉词语的帮助。
- 多模态产品图像分割的互查询网络
本文提出一种基于视觉和语言两种形式的模态的互相查询网络,用于产品图像的分割,并构建了一个多模态产品分割数据集(MMPS),实验结果表明该方法显著优于现有方法。
- ACL嘈杂环境下唇读识别:通用视音位映射与转移提升音视频语音识别鲁棒性
本文提出了一种基于视觉模态的无监督噪声适应方案,使用通用的音位 - 音素映射 (UniVPM) 技术从视觉信号中恢复干净音频从而扩展 AVSR 系统的噪声鲁棒性。在公共基准测试数据集 LRS3 和 LRS2 上进行的广泛实验表明,我们的方法 - ACLPV2TEA:将视觉模态补充到文本信息提取中
该研究旨在将视觉模态与以文本为基础的属性信息提取器相结合,以提高属性值提取的准确性和性能,在此基础上,该文提出了基于编码器 - 解码器结构的 PV2TEA 模型,通过三种偏差降低方案实现跨模态融合,并实验证明相比于单一模态模型,其性能提高了 - 使用模态专用的大规模预训练编码器进行多模态情感分析
本文研究了多模态情感分析中使用具有模态感受的大规模预训练编码器的有效性和实现。通过实验比较了在视觉、声学和语言感受模态下最大的预训练编码器和传统的启发式特征后,得出领域专用预训练编码器比常规特征在单模态和多模态情况下性能更好的结论。
- ACL训练模型对视觉常识知识的学习
研究利用多模态模型来学习语言的局限性,提出了两个评估任务来衡量语言模型在视觉常识知识方面的表现。结果发现,基于视觉文本数据的多模态模型和单模态模型在视觉常识知识方面表现不显著不同。
- ACLViTA: 通过对齐对象标签进行视觉语言翻译
该论文提出了一种名为 Volta 的系统,通过提取图像中的对象标签来增强多模式机器翻译系统的文本输入,成功地在 WAT 2021 的多模式翻译任务中获得了 BLEU 分数 44.6 和 51.6。
- CVPR判别式多模态语音识别
本文提出了一种基于视听的两阶段语音识别模型,该模型利用视唇运动信息清晰地区分出背景噪音并提升语音识别率,同时用 P3D 和 EleAtt-GRU 技术进一步提高模型性能,实验证明该模型在 LRS3-TED 和 LRW 数据集上均取得了较大的 - 音视频语音识别的循环神经网络转录器
本研究提出了一种基于循环神经网络转录者(RNN-T)架构的大规模视音频语音识别系统,并通过比较语音,视觉和视听系统在两个大词汇测试集上的表现,以及在带噪声和重叠的人工干扰的数据上的表现,突显了视觉模态的贡献。据我们所知,我们的系统显著改善了 - 基于多 CNN 特征的 CNN-RNN 情感维度识别在 OMG 野外数据集上的应用
本文利用 CNN-RNN 方法以及 OMG-Emotion 数据集,多模态特征提取,提出了情感识别的新思路,仅利用视觉模态的方法优于同时利用音频和视觉模态的现有技术,实验表明,低级特征结合高级特征可明显提高情感唤起度的识别。
- MM多模态机器翻译中视觉上下文的必要性探究
本文中,我们研究了多模式机器翻译(MMT)中视觉模态的贡献,通过分析证明,即使在有限的文本和文本上下文的情况下,模型也能够利用视觉输入来生成更好的翻译结果。
- ICLR多智能体通信中的突现式翻译
本文提出了一种基于多模态视觉的交互式语言学习模型,无需平行语料库即可实现语言的相互理解和翻译,并表明使用该模型的多语言社区实现了更好和更快的翻译结果。
- CVPR零样本事件检测的统一嵌入和度量学习
本文提出一种基于视觉和文本模态下的事件检测与检索算法,该算法通过训练一个端到端的模型,使得文本和视觉的表示进入了一个联合空间,并且在该空间中,利用预定义的事件来表示新的事件,并实现了事件与相关视频之间的距离度量,该算法在 TRECVID M - 基于深度神经网络的端到端多模态情感识别
本研究提出了一种运用视觉和听觉模态的情感识别系统,其通过深度卷积神经网络提取语音特征,通过 50 层的深度残差网络提取视觉特征,并运用长短时记忆网络进行机器学习算法,通过对 AVEC 2016 情感识别研究挑战的 RECOLA 数据库的自发