- 辅助患者数据对自动胸部 X 射线报告生成的影响及如何整合
该研究调查了将多样的患者数据源整合到多模态语言模型中,用于自动化胸部 X 射线报告生成。通过使用 MIMIC-CXR 和 MIMIC-IV-ED 数据集,该研究通过整合详细的患者信息,如不定期的生命体征、药物和临床病史,将异质数据源转化为嵌 - PSLM: 并行生成用于低延迟口语对话系统的文本和语音的 LLM
多模式语言模型通过扩展输入和输出序列,支持并行生成文本和语音,从而改善响应生成的延迟,并保持响应内容的质量。在口语问答任务上的实验证明,该方法进一步通过生成多个语音序列来减少延迟。
- 任务问我
Task-Me-Anything 是一个针对大型多模式语言模型(MLMs)的基准生成引擎,它可以根据用户需求生成定制化的基准,并通过在计算预算内高效地算法地解决用户对 MLM 性能的查询。它包含 113K 图像、10K 视频、2K 3D 物 - 视觉草稿本:多模态语言模型的可视化思维链
本研究介绍了 Sketchpad 框架,通过为多模态语言模型提供视觉草图板和绘图工具,使其在推理过程中绘制视觉成果,从而显著改善任务表现。
- MMWorld: 视频中多学科多方面世界模型评估之路
多模态语言模型 (MLLMs) 在解释和推理复杂的现实世界动态方面展示出新兴的 “世界模型” 的能力。为了评估这些能力,我们提出视频是理想的媒介,因为它们包含了丰富的现实世界动态和因果关系的表示。为此,我们引入了 MMWorld,一个新的多 - CVPRTRINS:面向能够阅读的多模态语言模型
通过引入 TRINS 数据集和 LaRA 模型,本研究提升了多模式大语言模型在理解图片中的文本内容方面的能力。TRINS 数据集包含了 39,153 个文本丰富的图片、图片描述和 102,437 个问题,并且较之相关数据集,TRINS 的每 - CVPRLLMGeo: 大规模语言模型在野外图像地理定位中的基准测试
利用多模态语言模型,我们系统评估其图片地理定位能力,并通过新的图像数据集和全面的评估框架进行训练及非训练的评估。结果表明,闭源模型展示出更好的地理定位能力,而开源模型通过微调可达到相当的性能。
- 解读并列: AI 模型能理解幽默的矛盾吗
通过对具有矛盾叙事的漫画展开研究,本文引入了 YesBut 评估基准,旨在评估人工智能在识别和解释具有幽默矛盾的漫画方面的能力。通过广泛的实验和分析,我们发现即使是最先进的模型在此任务上仍然落后于人类表现,为人工智能在理解人类创造性表达方面 - Reka Core、Flash 和 Edge: 一系列强大的多模态语言模型
Reka 介绍了 Reka Core、Flash 和 Edge,这是一系列强大的多模态语言模型,通过 Reka 从头开始进行训练。Reka 模型能够处理和推理文本、图像、视频和音频输入。
- BLINK:多模态大型语言模型具备视觉但无感知能力
Blink 是一个针对多模式语言模型(LLMs)的新基准,重点关注其他评估中找不到的核心视觉感知能力。通过对 14 个经典的计算机视觉任务进行改组,Blink 生成了 3,807 个多项选择题,配备单个或多个图像和视觉提示。虽然人类平均准确 - CoIN:一个用于多模型大型语言模型的连续指令调整基准测试
通过连续指令调整(CoIN)对多模态大型语言模型(MLLMs)进行评估,发现当前强大的 MLLMs 仍然存在灾难性遗忘,并提出了 MoELoRA 方法有效地保留了以前的指令对齐。
- GPT 作为心理学家?关于 GPT-4V 在视觉情感计算中的初步评估
Multimodal language models (MLMs) are applied in affective computing, evaluating their performance in facial action unit - M3DBench:利用多模态 3D 提示指导大型模型
我们引入了一个名为 M3DBench 的全面的 3D 指令跟随数据集,支持多模式指令与文本、图像、3D 物体和其他视觉提示相互交错,统一了不同的 3D 任务,是一个大规模的 3D 指令跟随数据集,收集了超过 320,000 个指令响应对,并 - 评估 GPT-4 在巴西大学入学考试中的视觉能力
通过综合文本和视觉元素,对语言模型在入学考试上进行评估的综合框架表明 GPT-4 在处理复杂多学科问题方面具有最先进的能力,但数学问题仍然是这些模型的挑战。
- 多模态大型语言模型综述
本文探究了多模态语言模型的研究,集成了多种数据类型,如图像、文本、语言、音频和其他异构数据。通过合并各种模态,多模态模型能够更全面地理解和处理多样化的数据,本文旨在促进对多模态模型及其在各领域中的潜力的更深入理解。
- 语言模型如何受指导以保护个人信息?
大规模多模式语言模型已在许多应用中证明具有变革性。然而,这些模型已被证明会记忆和泄漏预训练数据,引发用户隐私和信息安全方面的严重关切。我们介绍了 PrivQA - 一个多模式基准,用于评估在模拟场景中指示模型保护特定类别个人信息时,此隐私 - CephGPT-4:一款交互式多模式颅面测量和诊断系统,配备视觉大语言模型
本文提出了基于多模医学数据的新型多模头影分析和诊断对话模型,用于牙齿矫正的测量和诊断应用。通过 CephGPT-4 模型,对头影数据和生成的诊断报告进行了独立的微调,展示了出色的性能。
- OphGLM: 基于指令与对话训练的眼科大型语言与视觉助手
本文研究和构建了一个眼科大型多模型模型来进行眼科疾病评估和诊断,并通过病情相关知识数据和公开可用的实际医疗对话建立了一个新的眼科多模态指示和对话微调数据集。实验结果表明,该模型表现异常优秀,具有革命性的眼科临床应用潜力。
- 大型语言模型的良好视觉分词器的特点是什么?
通过实证研究,我们讨论了将主流的预训练方法应用于视觉编码器以构建良好的视觉分词器,以使大型语言模型(LLM)成为强大的多模态大语言模型(MLLM)。我们发现,GVT 在不引入额外的参数和任务特定的微调的情况下,展现出了在多个尺度上的强大视觉 - LLM 作为机器人的大脑:统一自我中心记忆和控制
本文提出了一个名为 LLM-Brain 的新型机器人控制框架,旨在利用大规模语言模型作为机器人的大脑,统一身体自我感知记忆和控制,并利用多模态语言模型来实现机器人任务的零样本学习。该框架可以通过多轮对话实现感知、规划、控制和记忆等任务,并通