- 从自省到最佳实践:多模态情景学习中示范的原则分析
通过对多种规模模型在广泛的新任务上进行系统而有原则的评估,我们展示了多模态在上下文学习中的不同影响,并通过模态驱动的示范策略提高了性能。我们的分析为理解多模态上下文学习中示范的作用提供了全面的方法,并为改进多模态上下文学习提供了启示。
- 通用多模态人工智能:架构、挑战与机遇综述
多模态模型在人工智能的未来进展中被认为是一个关键组成部分,本文通过一种新的架构和训练配置特定的分类方法,从多个角度对通用多模态模型进行了综述,并提出了关键挑战和前景。
- 多模态路径:利用其他模态的无关数据改进 Transformer
我们提出了一种名为多模态路径的方法,通过利用其他模态的无关数据来改进特定模态的 transformers,从而实现了显著且一致的性能提升。
- Mirasol3B:面向时间对齐和上下文多模态自回归模型
我们提出了一种多模态模型 Mirasol3B,通过自回归机制,将多媒体输入分别处理并建模,同时使用分段和合并机制来处理视频和音频序列的长依赖性,从而实现了在多模态基准测试上的最佳结果。
- 跨语种和语言模态之间的桥梁:同步双语 CTC 用于语音翻译和语音识别
本研究提出了一种创新的同步双语联结主义时间分类 (CTC) 框架,利用双重 CTC 来填补语音翻译任务中模态和语言之间的差距。通过将转录和翻译作为 CTC 的并行目标,我们的模型填补了音频和文本以及源语言和目标语言之间的差距。在 CTC 应 - 预训练纯文本 Transformer 中的多模态神经元
通过向文本转换器添加视觉信息,我们研究了冻结的文本转换器如何使用自监督视觉编码器和单一线性投影将一种模态的学习表示迁移到另一种模态,在转换器内部发现了模态之间的转换,并通过识别多模态神经元和解码它们注入模型剩余流的概念来验证其作用。通过一系 - 基于皮层启发的 ReD-SOM 模型修复受损信号模态学习
通过结合变分自动编码器、自组织映射和赫布连接在统一的 ReD-SOM(Reentering Deep Self-organizing Map)模型中,模拟和利用人脑中现象类似的 McGurk Effect,从而恢复丢失的数据模态并提高信号重 - 多模态机器学习中的模态影响
本研究旨在探讨每种模态对 Multimodal Machine Learning 模型的影响,并针对不同分类任务的数据集和模型,提出了一种确定每种模态对 Multimodal Machine Learning 模型的影响的方法。研究结果对于 - 多模态联邦人类活动识别中的隐私保护
本研究探讨了隐私对离散的人类活动识别(HAR)在用户、环境和传感器级别上影响的问题,并发现隐私对 FL 系统的影响因传感器数据的不同共存而异。在传感器数据的隐私保护方面,训练一个通用的 FL 模型和一个每种感觉模式的组级模型互相训练是可行的 - 使用分支 GAN 生成叠加类别分割图
通过图像分解和多个生成网络的总和,本文提出了一种新模型、训练过程和体系结构以创建精确的图像类别区分地图,该方法允许对不同方法的应用,并通过可解释 AI 实现自我监督分割和物体检测。
- 视频预训练 Transformer:多模态预训练专家混合
本论文提出了一种名为 VPT 的模型,该模型使用多个编码器模型从视频中提取紧凑的嵌入向量,通过预测 YouTube 视频中的语音来训练,并在标准的下游任务基准测试中达到了最先进水平,并在模型中添加了更多的模态信息。
- 语言模型是通用接口
本文提出了使用语言模型作为各种基础模型的通用接口,弥合语言和其他模态的差异性,同时继承了语境训练和生成以及双向编码器的优点,实现了上下文学习、指导跟随等多种能力。实验验证表明,在各种语言和视觉语言基准测试中,我们的模型在微调、零 - sho - 多模式协同学习:挑战、数据集应用、最新进展与未来方向
该研究对于多模态联合学习进行了全面系统的综述,介绍了多种技术和应用,讨论了存在的挑战和未来的研究方向。
- AAAI理解与知识
该论文指出,代理程序理解一个句子的能力与其先前的经验和背景知识紧密相连。因此,将理解解释为一种模态,并提出一种完整的双模态逻辑系统,以描述理解和知识模态之间的相互作用。
- 多模态不对齐语言序列的多模态转换器
该研究介绍了一种称为 MulT 的多模态转换器,利用方向性一对一跨模态注意力在不显式对齐数据的情况下,通用地解决了模型多模态人类语言时序数据中的两个主要挑战,即内在数据非对准性和跨模态元素之间的长程依赖关系。
- 使用多尺度 RNN 进行多模态连续交替预测
提出了一种多尺度 RNN 架构,用于在不同的时间尺度上模拟交谈中多个模态的特征,模拟语言和声音特征在不同的时间尺度上对于对话期间的特性建模是有益的,同时我们的方法还能够将凝视特征纳入到对话模型中。
- CVPR基于素描的照片分类器生成
通过从用户的自由手绘草图中综合图像分类器,我们通过训练模型回归网络将自由手绘草图空间映射到照片分类器空间,从而实现了新类别的照片分类器的综合。同时,此方法还可以用作现有照片分类器粒度的增强方法,或作为基于名称零样本学习的补充。
- 基于规则注释和众包的统计模态标注
训练一种自动情态标注器(modality tagger)。在用规则进行简单的情态标注的基础上,通过 Mechanical Turk 逐步提供训练数据集并使用多类 SVM 进行精确的情态标注,解决了训练数据稀少的难题。
- 基于语义的句法机器翻译中的情态和否定使用
本文描述了为期八周的约翰霍普金斯大学人类语言技术卓越中心应用语言探索夏令营(SCALE-2009)中语义驱动机器翻译(SIMT)的资源和系统构建工作。作者引入了一种新的模态 / 否定(MN)注释方案,基于该方案和词典生成了两个自动化的 MN - 一种模态词典及其在自动标记中的应用
本文介绍了模态词的注释方案、模态词的构建、以及两种使用词汇表和注释方案构建的自动标注工具。使用基于结构的标记工具来在英文 - 乌尔都语训练语料库上注释英文模态,使得机器翻译的质量得到了提高。