LMEye:用于大型语言模型的交互式感知网络
本文提出了 Steve-Eye,一个端到端训练的大型多模态模型,用于解决大语言模型在直观理解环境和生成易于理解响应方面的挑战,并基于广泛实验验证了该模型在战略行为和规划方面的能力。
Oct, 2023
本文提出了一种名为 PerceptionGPT 的新型端到端框架,通过利用 LLMs 的 token 嵌入的表示能力,高效有效地赋予 VLLMs 视觉感知能力。该方法以 LLMs 的 token 嵌入作为空间信息的携带者,利用轻量级的视觉任务编码器和解码器执行视觉感知任务(如检测、分割),有效缓解了以往将视觉输出离散化为 token 的训练困难,并且能够在更少的可训练参数、较少的训练数据和较短的训练时间内实现更优越的性能。此外,由于推理过程中只需要一个 token 嵌入来解码视觉输出,结果序列长度可大幅减少。因此,该方法能够实现准确灵活的表示,无缝集成视觉感知任务,并高效处理多个视觉输出,通过广泛的实验证实了该方法的有效性和效率,结果表明,在更少的可训练参数和 GPU 时间的情况下取得了显著的改进,为未来赋予 LLMs 视觉感知能力的研究提供了便利。
Nov, 2023
本研究提出了一种新的方法来增强多模式大型语言模型的可解释性,通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合,从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性,使我们能够设计一种新的显著性图以解释任何输出标记,识别模型幻觉,并通过语义对抗扰动评估模型的偏见。
May, 2024
通过使用简单的光线分布模拟眼睛的关键图像特征,Light Eyes(LEyes)框架能够通过多样的凝视估计任务来令神经网络训练更容易配置,从而解决了深度学习在目光估计方面的问题。LEyes 训练的模型在瞳孔和眼角膜反射定位方面在众所周知的数据集上优于其他最先进的算法,并且通过使用更具成本效益的硬件,该模型的性能也超过了工业标准的眼动仪。未来,我们有信心 LEyes 将革新用于凝视估计模型的合成数据生成,并带来下一代基于视频的眼动仪的显著改进。
Sep, 2023
本文介绍了一个 LVLM-eHub 综合评估平台,使用 6 种多模态能力定量评估 47 个标准文本相关视觉基准,并利用在线平台提供用户级评估。结果显示,采用多轮推理评估框架可以缓解对象幻觉问题,为开发有效的 LVLM 评估流水线提供了启示。
Jun, 2023
大语言模型在计算机视觉领域中通过不同的接口机制实现图像字幕和视觉问题回答的任务,通过实验评估各种接口机制和数据集,发现现有机制在多个任务中表现更好,并识别出一种新的接口机制,在不同任务上获得接近最优的结果,并降低了训练时间。
Mar, 2024
VisionLLM v2 是一种端到端的多模态大型模型,它在一个框架中统一了视觉感知、理解和生成。它通过一种名为 “超级链接” 的信息传输机制连接了模型与特定任务解码器,以实现灵活的任务信息传输和梯度反馈,并在多任务场景中解决训练冲突,并通过不同的用户提示实现对多种视觉语言任务的端到端联合训练和泛化,达到与特定任务模型相当的性能。
Jun, 2024
本文提出了一种高效适应单模预训练模型解决多模任务的方法 eP-ALM,在冻结大多数参数、仅训练一个线性投影层,前置仅一个可训练标记的情况下,显著优于基线,并在图像、视频和音频模态下跨越 VQA 和字幕的多个基准测试中取得了最佳性能。
Mar, 2023
研究通过使用计算物理引擎作为输入,将语言模型中的推理过程与现实社会有机结合,让模型具有更加精准有效的推理能力,以达到人类与 AI 之间成功和有效的交流。该研究的实验证明 Mind's Eye 可以在物理对齐基准测试中改善模型推理能力 27.9%(零击中率)和 46.0%(少量击中率),较小的语言模型具有 Mind's Eye 也能获得类似的性能。
Oct, 2022
我们提出了一种评估方法,使用强大的大视觉语言模型作为评判者来全面评估大视觉语言模型的各种能力,通过构建综合的触石视觉对话数据集和整合详细的图像注释,我们能够在不需要人为干预的情况下,利用先进的大语言模型直接评估多模态对话的质量,从而为大视觉语言模型的评估提供参考,并铺就构建更强大的大视觉语言模型的道路。
Aug, 2023