- MING-MOE:稀疏低秩适配器专家混合增强大型语言模型中的医学多任务学习
MING-MOE 是一种基于混合专家(MOE)的医学大型语言模型,通过 Mixture of Low-Rank Adaptation(MoLoRA)技术,在不需要特定任务注释的情况下处理复杂多样的医学任务,从而在超过 20 个医学任务上取得 - ODA: 以观测为驱动的智能体用于集成 LLMs 和知识图谱
通过引入基于观察的智能体(ODA)框架,本研究旨在解决将大型语言模型(LLMs)和知识图谱(KGs)结合的问题,以提高 KG 的推理能力,并在多个数据集中展示了现实世界性能的显著提升(12.87% 和 8.9%)
- 扩散概率多线索水平集用于减少胰腺分割中的边缘不确定性
准确地划分胰腺仍然是一个巨大的挑战。为了克服传统方法和深度学习方法在语义定位和边缘精确性方面的困难,我们提出了一种基于扩散概率模型的多线索水平集方法,命名为 Diff-mcs。通过在粗分割阶段中应用扩散概率模型,我们使用获得的概率分布作为初 - CVPR视频帧插值中的稀疏全局匹配与大动态
通过引入一个新的管道,本文提出了一种有效地整合全局级信息以缓解大运动问题的视频帧插值方法,在处理大运动场景时展现了最先进的性能。
- CVPR无需训练的离线扩散增强原型生成开放词汇分词
该论文介绍了一种用于开放词汇语义分割的无需训练的扩散增强方法(FreeDA),通过扩散模型的能力来可视化生成概念并通过局部 - 全局相似性将无类别区域与语义类别匹配,从而在五个数据集上实现了超过 7.0 平均 IoU 点的最先进性能,而无需 - CVPR用于大规模单像素成像的双尺度 Transformer
通过使用深度展开网络和混合注意力 Transformer 解决 Kronecker SPI 模型的问题,我们提出了一种名为 HATNet 的方法,可以改善真实 SPI 相机的成像质量,并在合成和真实数据上进行了广泛实验证明方法达到了最先进的 - 关系抽取的二维特征工程方法
本论文提出了一种基于二维句子表示的二维特征工程方法,用于关系提取任务,经过在三个公共数据集上的评估,达到了最先进的性能,结果表明二维特征工程可以充分利用二维句子表示和传统特征工程中的先前知识。
- 基于同行援助的修复器:赋予大型语言模型修复高级学生作业的能力
我们基于大型语言模型(LLM)提出了一个名为 PaR 的框架,用于解决高级编程作业中的程序错误修复问题,并通过对新的高级学生作业数据集(Defects4DS)和另一个经过深入调查的 ITSP 数据集的评估,展示了超越现有 LMM - 和基于 - $R^2$-Tuning:高效的图像到视频迁移学习用于视频时间绑定
在本文中,我们提出了一种轻量级的 $R^2$-Tuning 模型,通过逆向递归调整的方式,利用 CLIP 模型的各层次信息进行精细的时空建模,以实现视频时序定位的最先进性能。
- CVPR蛋白质表征学习的聚类
蛋白质表示学习是一个具有挑战性的任务,旨在从其氨基酸序列中捕获蛋白质的结构和功能。本文提出了一种神经聚类框架,通过考虑蛋白质的一级和三级结构信息来自动发现蛋白质的关键部分,在四个蛋白质相关任务上取得了最先进的表现。
- 多层稠密注意力解码器用于息肉分割
通过引入名为 Dense Attention Gate 的新模块,建立了多层特征之间的本地特征关系,同时采用新的嵌套解码器架构来增强语义特征,并与 PVT 主干网络相结合,实现了多层密集特征的层次聚合,从而在多个数据集上取得了最新的性能表现 - 每个镜头都重要:在视频中使用范例进行重复计数
视频重复计数是指推断视频中重复动作或运动的次数。我们提出了一种以样本为基础的方法,通过发现目标视频中重复的视频样本之间的视觉对应关系来进行计数。我们的提出的 Every Shot Counts(ESCounts)模型是一个基于注意力的编码解 - D-PAD: 深浅多频模式分解用于时间序列预测
本文提出了 D-PAD,一种深浅多频模式解缠深度学习神经网络,通过引入多组分分解块(MCD block)将时间序列分解为不同频率范围的分量,进而通过分解 - 重构 - 分解(D-R-D)模块渐进性地提取混合在分量中的频率信息,并利用交互与融 - MEP:多核学习增强相对位置编码长度外推
当预测序列长度超过训练期间观察到的长度时,transformer 的推断准确性会降低。本研究基于 ALiBi 方法,提出了一种新的相对位置编码方法 MEP,它结合了不同的核函数(如指数核函数和高斯核函数)通过加权平均组成一个偏置,应用于后 - 基于时空邻近感知的全景活动识别双通道模型
全景活动识别 (PAN) 旨在在拥挤的全景场景中识别多样化的人类活动,从个体动作到社交群体和全球活动。为了解决 PAN 面临的两个主要挑战,我们提出了基于社交接近度感知的双通道网络 (SPDP-Net)。该网络基于两个关键设计原则:首先,考 - MVSplat: 从稀疏多视角图像中高效的三维高斯粒子渲染
我们提出了一种称为 MVSplat 的高效前馈 3D 高斯分割模型,通过稀疏多视图图像进行学习。为了准确定位高斯中心,我们通过在三维空间中进行平面扫描来建立成本体积表示,其中成本体积中存储的跨视图特征相似性可以为深度估计提供宝贵的几何线索。 - ACLLeanReasoner: 用 Lean 增强复杂逻辑推理
利用 Lean 框架,将复杂的逻辑推理问题形式化为定理后进行求解,以减少逻辑不一致性的风险并提升处理复杂推理任务的能力,取得了在 FOLIO 数据集上的最先进表现,并在 ProofWriter 上接近该水平的成果。值得注意的是,这些结果是在 - ViTGaze:视觉 Transformer 中的交互特征目光追踪
基于 Vision Transformers 和自注意力机制,我们提出了一种新的单模态注视跟踪框架 ViTGaze,通过人 - 场景间的信息交互提高了性能,达到了最先进的性能水平。
- 将数据集精简至不足一张图
通过压缩数据集,将数据集装入一张海报,我们提出了一种新的方法,可以使用小于每类一张图像的方式,实现与现有方法相媲美甚至更好的性能。
- COLING具有分层解缠特性的增强一致性感知网络在方面类别情感分析中的应用
提出了一种增强的一致性感知网络与分层解缠模块(ECAN)用于用于基于方面类别的情感分析(ACSA)任务,其通过利用一致性建模来捕获整个评论中的上下文并帮助隐含的方面和情感识别,以提取独特的类别和情感特征,实现了最新的性能。