Brainish: 为智能和意识规范化的多模式语言
人工智能生成内容(AIGC)时代的大脑条件多模态综合继续发展,通过建立不同模态之间的映射关系,将脑信号反解码为知觉体验,这对于开发实用的脑 - 计算机界面系统和揭示大脑感知和理解外界刺激的复杂机制具有重要意义。本综述全面研究了基于 AIGC 的脑条件多模态综合,即 AIGC-Brain,勾勒了当前研究现状和未来方向。
Dec, 2023
通过脑活动捕获的功能性磁共振成像解译人类视觉体验是神经科学研究领域的前沿挑战之一。本文介绍了 MindSemantix,这是一种新颖的多模态框架,使语言模型能够理解脑活动中唤起的语义内容,并形成无缝连接的端到端脑 - 语言模型。
May, 2024
本文系统探讨了图像转换器和多模态转换器在大脑编码方面的有效性,发现多模态转换器 VisualBERT 在编码上远优于之前提出的单模态 CNN、图像转换器以及其他先前提出的多模态模型,这表明视觉语言模型的优越性,产生了人们是否在被动地查看图像时,视觉区域的响应是否受到语言处理的影响的问题。
Apr, 2022
本文提出了一种基于脑部语义理论的简单解释方法,通过将分布向量空间映射到可解释的基于脑部成分空间,探索了语义组合的内在属性,为自然语言理解等基本问题提供了启示。
Nov, 2017
通过使用大规模语言模型(LLM)与语义脑解码器相结合,直接从功能性磁共振成像(fMRI)输入中生成与视觉或听觉语言刺激内容紧密相关的连贯语言序列,这证明了利用脑机接口(BCIs)直接生成语言的潜力和可行性。
Nov, 2023
本文提出了一种名为 BraVL 的神经解码通用方法,采用三模态深度生成模型对脑部、视觉和语义特征之间的关系进行建模,以提高对新颖视觉类别的准确性,进而发现通过视觉和语义特征的组合进行解码比单独使用这两者更卓越,进而表明视觉感知可能伴随语言影响以表示视觉刺激的语义。
Oct, 2022
本文提出了用户驱动的智能界面的新概念,它应用于各种领域中,如残疾研究,教育,家庭护理,医疗保健等,通过脑机交互等方式,利用多模态增强现实技术,以及通过机器学习等方法,分类实时神经物理反应的即时反馈,以克服当前可用用户界面的局限性,特别是针对功能残疾人群。即使在当前状态下,结合增强现实和脑机交互的接口也能提供高度适应性和个性化的服务。
Apr, 2017
使用多模态深度神经网络(DNN)预测了人脑多模态整合的位置,通过预测人类在观看电影时的立体脑电图(SEEG)记录,我们将多模态整合的位置定义为多模态视觉语言模型优于单模态语言、单模态视觉或线性整合的区域。通过对不同架构和多模态训练技术的目标 DNN 模型进行对比,我们发现在大脑区域中存在多个整合多模态信息的神经位点。此外,我们发现在我们评估的多模态训练技术变体中,CLIP 风格的训练最适合下游预测这些位点的神经活动。
Jun, 2024
本研究旨在探究多模态变形器提供的洞察能力,通过对多模态编码模型进行训练,发现多模态变形器学习了语言和视觉中概念表示的更多对齐性,并且可以有效预测大脑对于故事和电影的 fMRI 反应,从而揭示了多模态处理的潜力和相关的概念表示模型的比较。
May, 2023
我们通过利用脑科学证据来探索预训练的多模态视频变换器模型,发现视觉增强了与语言处理中的遮蔽预测性能,支持模型中交叉模态表示可以受益于个体模态,但未发现与大脑相关的信息,我们展示使用一个需要视觉 - 语言推理的任务,可以改善预训练联合表示的脑对齐效果,这些结果呈现了多模态变换器在部分与大脑相关的方式上集成视觉和语言的能力,但也表明改善这些模型的脑对齐可能需要新的方法。
Nov, 2023