- 增强结构化分布学习的非线性降噪得分匹配
提出了一种新颖的训练基于分数的生成模型的方法,通过非线性加噪动力学改进结构化分布的学习,从而使其更好地适应数据,在数据预处理步骤中获取结构并引入了两种方法解决非线性动力学训练带来的挑战,展示了该方法在几个示例上的有效性。
- 保护视觉语言模型免受已插入的视觉提示注入器的威胁
通过 SmoothVLM 防御机制,本文针对视觉 - 语言模型中的补丁式对抗性提示注入进行研究,取得了成功的攻击率降低和上下文恢复率提高的平衡。
- 多语种、多模态领域无关欺骗检测路线图
通过使用多语言变形器模型和多语言标注数据,对跨语言和跨模态的虚假语言进行全面研究,以解决在计算机安全和自然语言处理领域的虚假检测任务。
- ACL多模态模型中的顺序组合泛化
本研究通过研究多模态设置下的顺序组合泛化,检验了使用 CompAct(组合活动)数据集在丰富的自我中心厨房活动视频背景中。研究发现,双模态和三模态模型明显优于仅文本的对应模型,强调了多模态在未来研究中的重要性。
- 通过大型语言模型探索自主代理:一项综述
大型语言模型(LLMs)正在改变人工智能,使得自主代理能够在不同领域执行多样化任务。这些代理具备类似人类的文本理解和生成能力,有望在从客户服务到医疗保健等各个领域引发革命。然而,它们面临着诸如多模态、人类价值取向、幻觉和评估等挑战。推动、推 - ExpressEdit:自然语言和示意草图的视频编辑
通过自然语言和草图等多模式表达,提出了一种支持视频编辑的系统 ExpressEdit,该系统通过解释自然语言命令和草图实现解释性编辑,增强了初学者视频编辑者表达和实现编辑理念的能力,为未来多模态界面和基于人工智能的视频编辑管道的设计提供了洞 - 非参数自动微分变分推断与样条逼近
我们提出了一种基于样条的非参数逼近方法,可以灵活逼近具有复杂结构的后验分布,如偏度、多峰性和有界支持。通过采用样条逼近,我们得到了重要性加权自编码器的下界,并建立了渐近一致性。实验证明了该方法在逼近复杂的后验分布和提高具有不完整数据的生成模 - AAAIEDA:多模态运动预测的演化与独特定位点
基于混合模型的多模式运动预测中,我们引入了一种新的范例 Evolution and Distinct Anchors (EDA),用于定义多模态运动预测的正负组件,通过使锚点在特定场景下演化和重新分布以扩大回归能力,并在与地面真实值匹配之前 - 人工智能教育的多模态性:迈向人工通用智能
该研究全面探讨了多模态人工智能方法在教育环境中实现通用人工智能的途径,着重分析了人工智能在教育系统中的演进和整合,强调多模态学习(包括听觉、视觉、动觉和语言学习)的重要作用,研究深入探讨了通用人工智能的关键方面,包括认知框架、高级知识表示、 - 基于 Sam 引导的增强细粒度混合语义学习的医学图像字幕生成
本文介绍了一种由 SAM 模型引导的新型医学图像字幕方法,以实现对医学图像的总体信息和细节进行增强编码,通过混合语义学习的独特预训练策略,同时捕捉医学图像的整体信息和细微细节,并证明了该方法在生成医学图像描述方面在各种评估指标上优于预训练的 - 用 SEED 令牌化器使 LLaMA 具备视觉和绘图能力
通过引入 SEED 图像标记器,使 LLMs 能够在其原始训练配方下执行可扩展的多模式自回归,并在广泛的多模式理解和生成任务中展示出令人印象深刻的性能。
- 将对比学习和最优输运融合于三维点云域适应
通过多模态对比学习和最优传输的对齐,我们提出了一种新的用于点云分类的无监督领域自适应架构,实现了更好的类别分离并在多个数据集上取得了最先进的性能。
- MultiSChuBERT:学术文档品质预测的有效多模态融合
多模态预测模型 MultiSChuBERT 通过使用基于 BERT 分块编码的文本模型(SChuBERT)和基于 Inception V3 的视觉模型,结合文本和可视信息,显著提高学术文档质量预测任务的结果。
- HODINet: RGB-D 显著物体检测高阶不一致交互网络
本文提出了一种高阶差异交互网络(HODINet)用于 RGB-D 显著目标检测,通过使用 Transformer 和 CNN 作为主干来编码 RGB 和深度特征,并将高阶表示嵌入到空间和通道关注力中以在不同阶段融合跨模式特征,实验证明该方法 - 来自不同人类监管者的隐式交互式车队学习
本文提出了解决 Interactive Fleet Learning (分布转移) 和 Implicit Behavior Cloning (多模态) 问题的 Implicit Interactive Fleet Learning 方法,并 - M3Exam:一个用于检验大型语言模型的多语言、多模态、多级别基准
该论文介绍了一种利用人类考试题目来全面评估大型语言模型(LLMs)的基准测试 M3Exam,该测试具有多语言、多模态和多级结构的特点,在低资源和非拉丁语文本方面,当前模型(包括 GPT-4)仍然难以应对多语言文本,同时多模态 LLMs 在复 - 自适应条件分位数神经过程
本文提出了一种新的神经过程成员 Conditional Quantile Neural Processes(CQNPs),采用量化回归来对复杂的分布进行建模,通过学习估计有信息量的分位数来增强抽样效率和预测准确性,并在实验数据集上与基线算法 - 使用 Birth-Death 过程和探索组件加速 Langevin 采样
提出一种新的基于出生死亡过程和探索组件的采样方法,该方法巧妙地利用温度较高的样本集来探索新模式并传递信息,以提高采样效率,并在之前的文献实验中进行了比较和测试。
- 改进的并行温度淬火混合时间界限
本文提出了对于并行淬火算法中的谱缝隙有多项式相关联的一个新的下限,从而改善了现有基于模数总数的指数上限.
- CVPRProphNet: 以锚点为基础的高效代理 - 中心运动预测
提出一种新颖的面向智能驾驶系统中的多模态运动预测的代理中心模型,并结合锚定地标、融合多样化提案的方法,实现了未来轨迹的精准预测,网络结构均相并且简明,可靠且高效。实验证明,该代理中心无论从预测精度还是从情境级别推断延迟方面均优于当前最先进的