- OtterHD: 高分辨率多模态模型
OtterHD-8B 是一个可处理高分辨率图像输入的多模态模型,具有灵活的输入维度处理能力,在小物体的细节和空间关系辨析方面的性能超过其他模型。研究结果揭示了不同模型之间在视觉信息处理上的结构差异以及视觉编码器的预训练分辨率差异对模型效果在 - 探索 GPT-4V 的 OCR 能力:定量和深入评估
GPT-4V 综合评估了最近发布的大型多模态模型 (GPT-4V (ision)) 在光学字符识别 (OCR) 方面的能力,发现其在识别和理解拉丁内容方面表现良好,但在多语言情境和复杂任务中存在困难。基于这些观察,我们深入探讨了专门的 OC - Steve-Eye: 使用视觉感知为基于 LLM 的具身化智能体装备开放世界
本文提出了 Steve-Eye,一个端到端训练的大型多模态模型,用于解决大语言模型在直观理解环境和生成易于理解响应方面的挑战,并基于广泛实验验证了该模型在战略行为和规划方面的能力。
- SALMONN:面向大型语言模型的通用听力能力
SALMONN 是一种语音音频语言音乐开放神经网络模型,集成了预训练的大型语言模型、语音和音频编码器,使得语言模型能够直接处理和理解一般音频输入,并在多项训练任务中取得竞争性表现。SALMONN 还具备多种未在训练中出现的跨模态新兴能力,并 - LLark: 一个用于音乐的多模态基础模型
音乐理解和 LLark 的多模态模型的数据集创建、多模态架构、以及基于开源音乐数据和模型进行训练的结果和代码。
- 增强型用户界面指令基础:走向通用的用户界面任务自动化 API
建立了一个多模态模型用于将自然语言指令与给定的 UI 屏幕截图联系起来,作为通用的 UI 任务自动执行器,并通过强化学习算法对其进行加强,实验结果表明,该模型在 UI 任务自动化方面表现优异,显示出作为通用 UI 任务自动化 API 的潜力 - ICCV电影理解的长程多模态预训练
通过观察和提取电影中的长距离关系,我们介绍了一个长距离多模态预训练策略和模型,通过利用电影数据来训练可传输的多模态和跨模态编码器。在 LVU 基准测试中,我们的模型在几个任务上取得了最先进的成果,并且比以前的工作更高效地利用数据。最后,我们 - 任何事物追踪:实时开放集检测、追踪和跟踪
制作了一个名为 “FAn” 的机器人系统,可以实时检测、跟踪和追踪任何对象,使用多模态模型进行对象检测和分割,允许通过文本、图像或点击查询来应用于新颖类别,并且在实时控制循环中展示了跟踪对象的能力。
- Video-ChatGPT: 通过大型视觉和语言模型实现详细视频理解
介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型,用于理解和生成关于视频的人类对话,并介绍了使用手动和半自动管道获得的新数据集,可用于训练和评估基于视频的对话模型,并在定量评估框架下分析了该模型的优劣。
- UniDiff: 利用生成和判别式学习推进视觉 - 语言模型
本文提出了一个名为 UniDiff 的多模态模型,它整合了图像 - 文本对比学习(ITC),文本条件的图像合成学习(IS)和双向语义一致性建模(RSC),并通过在来自 CLIP 和扩散模型的视觉特征上利用 RSC 来有效地学习对齐的语义。该 - ViLaS: 将视觉和语言集成到自动语音识别中
提出一种多模态自动语音识别模型(ViLaS),能够同时或分别集成视觉和语言线索来帮助识别输入语音,提出一种训练策略,从而提高在模态不完整的测试场景中的性能,并创建一个包含视觉和语言线索的多模态 ASR 数据集(VSDial),探索融合视觉和 - 一个带有阅读理解的大型跨模态视频检索数据集
提出了一种新的跨模态视频检索数据集 TextVR,它包含了八个场景领域的 10.5k 个视频和 42.2k 个查询语句,并介绍了一种统一的跨模态模型,有效地将文本和视觉语义信息融合来实现视频检索任务。该数据集和我们提出的跨模态检索方法为视频 - 基础模型在地理空间人工智能中的机遇与挑战
通过在多个地理空间子领域进行测试,发现在某些文本模态的地理任务中,基于任务不可知的大型语言模型可以在零样本或少样本学习设置中胜过基于任务特定的全监督模型,但是在其他涉及多种数据模态的地理任务上,现有的基础模型仍然不如基于任务特定的模型表现。 - CVPRAVFormer: 为冻结的语音模型注入视觉信息以实现零样本 AV-ASR
AVFormer 是一种简单的方法,使用轻量级可训练的适配器将视觉嵌入注入到冻结的语音识别模型中,并引入了一种培训方案。同时用小量且弱标注视频数据进行培训。实验结果表明,该方法在三个不同的音视频 ASR 基准(How2、VisSpeech - GPT-4 技术报告
本文介绍了 GPT-4,一种大规模、多模态模型,可接受图像输入和文本输入,并产生文本输出。通过预先训练,优化方法和改进后的对齐过程,GPT-4 表现出人类水平的性能。
- 语言引导的具身化智能体多模式语音识别
本文提出了一种多模式自动语音识别模型,通过考虑附带的视觉上下文来减少口头指令的错误转录,使用了仿真的噪声环境。实验结果表明,使用多模态 ASR 模型可使任务完成的准确性得到提高。
- 基于文本和药物嵌入的多模态模型用于不良药物反应分类
本文介绍了一种基于多模态模型和 BERT 的方法,用于对推文进行分类以检测潜在的药物效应和反应。实验证明,神经网络得到的分子信息对 ADE 分类比传统分子描述符更有益。
- Twitter FinBERT 嵌入式的多模态模型用于比特币极端价格变动预测
本文提出了一种多模态预测模型,利用 Twitter 社交媒体以及其他相关资产价格和技术指标等预测比特币价格波动,最终构建一个能够准确预测市场运动的模型,提出了一种基于模型预测的交易策略,与传统策略相比风险更低,可用于实际交易。
- MQDD:面向软件工程领域的多模态问题重复检测的预训练
本文提出了一种新的方法,在 Stack Overflow 网站上收集数据并预训练多模态模型来搜索重复的问题回答。通过引入两个新的学习目标,我们设计的多模态模型可以在多种编程语言中训练,从而提高重复检测的能力。最终我们得到了一个 MQDD(M - MMCommerceMM: 基于全检索的大规模商业多模态表示学习
CommerceMM 是一种多模态模型,其具备多种理解商业主题的能力,并能够推广到广泛的任务范围,包括多模态分类、图像 - 文本检索、查询 - 产品检索、图像 - 产品检索等。它使用预训练的方式,在图像 - 文本对上完成了 5 个有效的预训