- 意识到提示的适配器:为多模态大型语言模型学习自适应的视觉特征
为了弥补视觉和语言模态之间的差距,我们提出了 prompt-aware 适配器,这些适配器根据提示的特定焦点动态嵌入视觉输入,以从提示中捕捉到最相关的视觉线索,从而显著增强了大型语言模型理解和解释视觉内容的能力。实验表明 prompt-aw - 基于 3T fMRI 数据和无监督学习的视网膜视觉图像重建
通过无监督生成对抗网络 (GAN) 结合 7T 和 3T 两个不同的 fMRI 数据集,本文提出了一种新的框架来生成改进的 3T fMRI 数据,克服高质量 7-Tesla 数据的稀缺性和 3-Tesla 实验中简短和低质量扫描的挑战,证明 - 加强多模式大型语言模型的启动式优化偏好
通过利用歪曲图像输入和在原始回应中注入错误但常见元素的方式,我们提出了一种能够有效抑制预训练 LLM 偏见、提升对视觉输入的基础性的方法 ——Bootstrap Preference Optimization (BPO),通过构建偏好数据集 - MLLM-Protector:确保 MLLM 安全性而不影响性能
为了应对多模式大型语言模型的安全性方面尚未解决的问题,我们提出了 MLLM-Protector,一种结合了轻量级有害检测器和响应解毒剂的即插即用策略。通过该策略,我们有效地减轻了恶意视觉输入带来的风险,同时不影响模型的整体性能。
- 视觉编码解码模型用于人工智能辅导
本研究论文介绍了一种创新的 AI 辅导方法,通过整合视觉编码器 - 解码器模型,以 Vision Transformer 作为编码器,GPT-2 作为解码器,实现了对视觉输入和文本交互的无缝集成。与传统实践中使用不同模型进行图像识别和文本辅 - 实时分析广播羽毛球视频
我们提出了一个用于解析羽毛球比赛直播录像中球员移动的端到端框架,通过使用可视化输入和仅使用视觉线索来计算球员在球场上所走的距离,通过移除重播和冗余部分,我们聚焦于比赛过程,并对每一帧进行球员追踪,最后计算每位球员的移动距离和平均速度,同时为 - Google 巴德的视觉理解有多好?对开放挑战的实证研究
Google's Bard 的视觉输入能力在理解和解释图像的研究中表现不佳,这为未来的发展桥接了视觉理解的重要差距,而沟通 AI 的领域中的竞争对手 ChatGPT 可在文本输入方面处理得更好。
- LLaMA-Adapter V2: 参数高效的视觉指令模型
本文介绍 LlaMA-Adapter V2,是一种解锁更多可学习参数并引入早期融合策略、共同训练数据的参数高效视觉指令模型,可用于多模态推理,对于开放式的视觉指令,具有更强的泛化能力。
- 神经约束满足:层次抽象在物体重新排列中的组合推广
通过构建一个因式分解转换图,将通过像素推断出的实体代表聚类,进而实现对嵌入式代理的物体重新排列的控制,解决到目前为止难以解决的大量实体配置问题。
- 自我提升机器人:端到端自主视觉动作强化学习
提出 MEDAL ++ 算法,利用少量的专家演示,在无需人工监督或监管的情况下,通过同时学习任务和任务的反向操作,自主地练习任务,从演示中推断出奖励函数,并从高维视觉输入端到端学习策略和奖励函数。在模拟和真实机器人实验中,MEDAL++ 都 - 利用有损特征进行泛化:利用广泛的离线数据学习视觉运动任务
本研究提出了基于多任务离线强化学习和亚目标规划的框架,通过先从大量数据中提取信息进行预训练,然后在视觉输入下对未知任务进行在线微调,旨在解决机器人学中多任务数据对下游任务的泛化问题。
- 从像素中学习跳跃
首次提出了深度基础的冲击控制 (DIC) 方法,用于合成高度敏捷的自主移动行为,特别是在面对间断地形时。
- SAM: 条件视觉行驶策略学习的压缩和模仿网络
本文利用策略学习方法,在语义学和物体可支配的副任务中,通过可训练的学习表征将视觉输入映射到基于转向命令的驾驶控制,通过压缩网络进行训练,使得读出网络能够使用副任务的注释来控制驾驶,进而使用一种名为 “mimic” 的方法通过图像的输入直接驾 - 回归规划网络
本篇论文提出了一种联合学习和符号规划的回归规划网络方法,可以通过视觉输入直接生成长期符号计划,成功求解了预设规则和状态限制的一些本领域应用难题,表现出了接近于最优性能。
- AAAI用像素进行(几乎)实时规划
通过使用基于屏幕的计划方法,我们研究了 Atari 2600 视频游戏的规划问题,结果表明,该方法能够快速比较人类和机器学习方法的规划结果,并通过 IW (k) 算法的每一回,实现了几乎实时的在线规划。