- 大规模投资前的动漫热度预测:基于深度学习的多模态方法
本研究提出了使用多模态文本图片数据集预测日本动漫热门度的方法,通过使用从互联网中获取的开源数据构建这一数据集,利用基于 GPT-2 和 ResNet-50 的深度神经网络模型,研究多模态文本图片输入与热门度之间的相关性,发现数据集的相关优势 - 工业语言图像数据集(ILID):为工业场景调整视觉基础模型
我们介绍了一种基于网络爬取数据的工业语言图像数据集(Industrial Language-Image Dataset)的生成流程,并展示了有效的自监督迁移学习方法,以及在这个廉价获取的数据集上进行训练后的下游任务讨论(不需要人工标注或干预 - 视觉语言模型的安全对齐
通过在两阶段训练过程中添加安全模块,包括安全投影仪、安全标记和安全头,我们提高了现有视觉语言模型的视觉安全对齐,有效提高了模型对危险图像的防御。
- HoneyBee: 用基础嵌入模型创建可扩展的多模态肿瘤学数据集的模块化框架
为了解决医学数据的复杂性和异质性所带来的挑战,我们引入了 HoneyBee,一个可扩展的模块化框架,用于构建多模态肿瘤学数据集,通过使用基础模型生成代表性嵌入。该框架整合了包括临床记录、影像数据和患者结果在内的各种数据模态,利用数据预处理技 - X-LLaVA: 优化双语大型视觉语言对齐
我们提出了两种解决多模态模型创建训练数据方面的问题的有效方法,并基于这些方法构建了一个 91K 的英 - 韩 - 中多语言多模态训练数据集,并开发了一种双语多模态模型,在韩语和英语方面表现出优秀的性能,超过了现有方法。
- ICCV基于概念聚类复杂性的大规模网络数据集的有效剪枝
利用大规模网络数据集进行训练会消耗可观的计算资源,本文研究通过修剪大规模多模态数据集来提高训练效率,并通过筛选高质量数据集以降低训练成本,从而在 ImageNet 数据集上取得了更好的性能。
- 潜变空间探索器:多模态潜变空间探索的可视分析
通过使用多模态数据集训练的机器学习模型可以揭示单一模态数据无法访问的新见解。本文介绍了一种名为 Latent Space Explorer 的视觉分析系统,该系统提供了交互式可视化工具,使用户能够探索受试者的多模态表示,定义感兴趣的子群体, - EMNLP不是所有的假新闻都是文字:一个关于误导性视频标题的数据集和分析
通过收集和注释 Multimodal Video Misleading Headline(VMH)数据集,我们分析了侦测误导性标题的多模态基线,同时注重了注释者对视频误导性的看法和背景与视频内容之间的相互作用。
- 音频 - 语言表示学习的大规模数据集
我们提出了一种基于公共工具或 API 的创新型自动音频说明生成流程,并构建了一个大规模、高质量的音频语言数据集 Auto-ACD,其中包含超过 190 万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务(包括音频语言检索、 - 阅读,观察还是听取?解决多模态数据集所需的元素
通过利用少量人工注释,我们提出了一种两步方法来分析多模态数据集,为了在处理数据集时将每个多模态实例映射到所需的模态。我们在 TVQA 视频问答数据集上应用了我们的方法,并发现大多数问题可以用单一模态回答,而且没有对任何特定模态存在实质性偏见 - DataComp:寻找下一代多模数据集
DataComp 基准测试是一个围绕 Common Crawl 的约 128 亿个图像文本对的数据集实验平台,通过提出新的训练集来激励数据集的研究。通过应用简单的过滤算法,DataComp-1B 被创建并用于训练一个 CLIP ViT-L - CVPRBiCro: 双向交叉模态相似性一致性纠正多模态数据的噪声对应关系
该研究提出了一种名为 BiCro 的框架,可提高交叉模态匹配模型的噪声鲁棒性,通过估计噪声数据对应度的软标签来训练匹配模型。实验结果表明,该方法明显提高了各种匹配模型的抗噪声能力,并领先于同类研究成果。
- 多模态贺卡数据集的弱监督标注
本研究提出了一个图像 / 文本数据集 Greeting Cards Dataset (GCD),并通过预训练模型完成了对于 GCD 数据集中抽象视觉概念的学习。同时,该数据集还可以用于生成贺卡图像。
- 多模态数据集中视角的重要性
本文主张采用注释实践来认识和代表多模式交流的内在透视性,并通过一系列注释实验介绍了在 Multi30k 和 Flickr 30k Entities 数据集上应用 FrameNet 注释的结果,其发现认为:(一)不同语言中产生的相同图片的标题 - EMNLPMSD: 多模态理解中的显著性感知知识蒸馏
研究对知识蒸馏在多模态数据集上的应用,提出了一种多模态知识蒸馏框架 MSD,其中引入辅助损失项和基于显著度得分的加权方案以及基于权重学习的方法,实验结果表明 MSD 比 KD 在四个多模态数据集上表现更好。
- ACL多模态数据集中单词和主题的视觉具体性量化
本研究旨在探讨如何自动计算多模态训练数据中的单词与主题的视觉具体性以此来预测机器学习算法学习文本与视觉关系能力的高低。研究发现具体概念确实比抽象概念更容易学习,且不同数据集中视觉具体性与算法表现之间的关系是有所不同的,建议在多模态研究中使用 - SamBaTen:基于采样的批量增量式张量分解
本文介绍了 SaMbaTen 算法,一种用于处理动态演化的多模态数据集的增量张量分解技术,能够在简化空间中有效地汇总现有张量数据及其增量更新,并且在精度方面具有与非增量技术相当的结果,速度快 25-30 倍,并且可以处理最大维度达到 100 - 广义伴随多任务 Lasso 用于稀疏多模态回归
本研究提出了一种新的统计和计算解决方案,针对功能性脑成像的异方性回归模型,使用 Concomitant Lasso-type 估计器的表述框架,提出了一种联合凸优化公式来同时估计回归系数和噪声协方差(平方根),在解决更复杂的噪声结构时,计算 - 跨模态检索综述
本文对异构数据检索问题进行了探讨,综述并分类了已有的交叉检索方法,包括基于实值表示学习和基于二进制表示学习的方法,并介绍了多个常用的多模态数据集以及比较不同方法的实验结果。
- NIPS使用循环神经网络检测疑问句
研究如何通过比较多种神经网络、正则化方法和上下文函数的效果,来预测说话者是在提问还是发表陈述,并通过多模态数据集验证模型效果。