- 反馈对齐的混合 LLMs 用于机器语言分子翻译
使用先进的优化算法和非线性融合,通过少量数据实现科学大语言模型的性能提升和新的最佳水平,并引入细粒度的评估方法来评估大语言模型中的虚构能力和促进负责任的使用。
- AAAIDGL: 文本 - 视频检索的动态全局 - 局部提示调优
我们提出了一个跨模态的动态提示调整方法,使用全局 - 局部注意机制对视频进行建模,通过仅调整 0.67%的参数,我们的方法在 MSR-VTT,VATEX,LSMDC 和 ActivityNet 数据集上优于或与完全微调方法相当。
- 交叉 BERT 用于点云预训练
通过引入 BERT 到跨模态的环境中,本文提出了一种新的跨模态 BERT 风格的自监督学习范式,称为 Cross-BERT,通过探索相同对象 / 场景的 2D 和 3D 数据之间的隐含语义和几何关系来提高 3D 点云表示的性能,以及 BER - 自适应生成可见光红外人员再识别的特权中间信息
通过生成特权图像,将可见光和红外图像进行虚拟的领域转换以实现跨模态人物重新识别,并且适应性生成特权中间信息训练方法在增加匹配准确度时不需要额外的计算资源。
- 增强虚拟助手智能力:针对元数据以外的实例级用户意图的精准区域定位
本文提出了一种新颖的跨模态深度学习方法,用于处理基于应用程序屏幕像素的实例级用户意图,同时在没有应用程序元数据的情况下预测目标操作区域和检测屏幕上的绝对按钮区域,并通过用户研究测试集上达到了 64.43% 的准确率。
- Cross2StrA: 无配对跨语言图像字幕生成与跨语言跨模态结构中心对齐
本文提出引入场景图和句法树来解决跨语言图像描述中存在的不相关性和表达不流畅的问题,并介绍了一种跨语言和跨模态的后向翻译训练方法,实现图像到最终描述的完全对齐,实验结果表明该模型在提高图像描述的相关性和流畅性方面表现出很大的优势。
- SpeechGPT:赋能大型语言模型具备内在的跨模态对话能力
本文提出了 SpeechGPT,一个具有内在跨模式对话能力的大型语言模型,可以感知和生成多模式内容,并演示了语音 + 文本的多模态交互示例。
- 视频问答的视觉因果场景细化
本文提出一种名为 VCSR 的跨模态因果关系推理框架,通过因果分析发现视频中关键的因果事件,解决了现有视频问答方法在识别视觉证据和问题方面的失败。实验表明,该方法在视频问答中表现出卓越的性能。
- ICLR跨模态三维物体检测的双向传播
本文描述了一种名为 BiProDet 的双向特征传播框架,使用点到像素的信息流和像素到点的信息流等机制优化了 3D 目标检测。同时,提出一种新的 2D 辅助任务,用于训练 2D 分支并间接提高 3D 检测的性能。实验证明,该方法在 KITT - AAAITimbreCLIP: 连接音质、文本和图像
TimbreCLIP 是一个音频文本交叉模态嵌入,通过单个乐器音符训练,通过合成器补丁的交叉模态检索任务评估模型,最后展示了在文本驱动音频均衡和音色图像生成两个任务上应用 TimbreCLIP。
- ECCV学习自我监督跨模态互相调制的超分辨率
本篇研究提出一种相互调制超分辨率模型(MMSR),其中使用自适应滤波器来充分利用交叉模态空间相关性,通过对源模态进行像导模态的分辨率模拟和对导模态进行源模态特征仿真,实现在完全自监督的情况下进行跨模态交叉超分辨率的训练,各项实验结果均表明 - 跨视角语言建模:朝向统一的跨语言跨模态预训练
本研究介绍了一种名为 Cross-View Language Modeling 的语言模型预训练框架,通过共享架构和目标统一交叉语言交叉模态预训练。我们的方法将多模态数据(即图像字幕对)和多语言数据(即平行句子对)作为同一对象的两个不同视角 - AAAI极低资源并行数据下的自监督音频文本预训练
本文旨在探讨在极低的跨模态数据情况下,通过利用单模态数据和翻译噪声特征进行训练,达到音频 - 文本模态的预训练效果,并证明本方法在很多语言上的表现与全并行语音 - 文本预训练数据相当。
- MMCommerceMM: 基于全检索的大规模商业多模态表示学习
CommerceMM 是一种多模态模型,其具备多种理解商业主题的能力,并能够推广到广泛的任务范围,包括多模态分类、图像 - 文本检索、查询 - 产品检索、图像 - 产品检索等。它使用预训练的方式,在图像 - 文本对上完成了 5 个有效的预训 - OPT: Omni-Perception Pre-Trainer 用于跨模态理解和生成
本文提出了一种跨模态的全视觉感知预训练器,其采用了多任务预训练策略从不同数据粒度学习了对图片、文字和音频的跨模态理解与生成。
- MM周期内总生成:循环生成对抗网络用于生成人脸、手、身体和自然场景
提出了一种基于循环的生成对抗网络模型 (C2GAN),通过交互式方式联合分析输入图像和引导数据,实现了人脸、手、身体和自然场景的图像生成,通过循环子网实现输入域的重构,同时生成另一个循环所需要的有用输出,实现了跨模态信息的相互补充,并具有更 - ECCVMaCLR: 面向视频的动态感知对比学习表征
MaCLR 是一种新方法,通过视觉和运动模态之间的交叉模态学习,在 RGB 视频剪辑和动作路径之间富化标准对比学习目标,从而更关注前景运动区域,达到了自监督下行任务的最先进性能。
- 跨模态视频文字检索的记忆增强嵌入学习
本研究提出了一种新颖的记忆增强嵌入学习(MEEL)方法,构建了两种记忆模块,交叉模态记忆模块和文本中心记忆模块,用于跨模态视频文本检索任务,解决了局部负样本和文本描述多样性的问题。在 MSR-VTT 和 VATEX 两个基准数据集上进行的实 - 我的多模型是否学习了跨模态交互?比你想象的更难判断!
提出一种名为 EMAP 的诊断工具,用于检测跨模态交互是否提高给定模型在给定任务上的性能,在七个图像 + 文本分类任务中发现,即使具有考虑交互作用的表达模型在表现上优于不太表达的模型,删除跨模态交互也往往不会降低性能。建议多模式机器学习研究 - 通过多粒度图像文本对齐 提高基于描述的人员再识别
本文提出了一个 Multi-granularity Image-text Alignments (MIA) 模型,用于减轻描述基础人物的 Re-id 中的跨模态细粒度问题,以进行更好的相似度评估。实验表明,该方法在 CUHK-PEDES 数