- ECCV如何训练有效知识蒸馏的教师模型
通过使用均方误差损失训练教师模型,本文指出教师模型的核心任务是提供与贝叶斯条件概率密度相似的条件概率密度估计,因此使用均方误差损失训练教师模型在现有知识蒸馏方法中稳定提高学生的准确度,结果显示准确度提高了 2.6%。
- ACL通过直接偏好优化的自我训练改进链索式推理
研究表明,通过自我训练和直接偏好优化方法,能够提高小规模语言模型在数学推理任务中的推理能力,从而提供一种比依赖大型专有语言模型更高效且可扩展的解决方案。
- MMDAC: 通过分割调整和修正实现具有噪音标签的 2D-3D 检索
我们提出了一个 DAC 框架,用于跨模式检索数据中的 2D/3D 内容,通过多模态动态划分和自适应对齐校正来提升模型性能。在真实环境中的实验结果表明,我们的 DAC 模型在传统和新提出的基准测试上具有广泛的适用性和优越性。
- ECCV球面图像的几何保真度
球面或全方位图像提供了一种引人注目的沉浸式视觉格式,适用于广泛的计算机视觉应用。然而,球面图像的几何性质对于设计用于普通 2D 图像的模型和度量标准构成了一大挑战。我们介绍了两个量化几何约束的定量度量标准,即 Omnidirectional - MMRefMask3D: 基于语言引导的 3D 参考分割的 Transformer
3D referring segmentation task that aims to segment objects in point cloud scenes using natural language expressions is - ECCV带有弹性缓存的视觉指令跟随模型的高效推理
在指令遵循的大型视觉语言模型中,通过应用不同的加速方法来提高效率。我们提出了 Elastic Cache,该方法利用重要性驱动的缓存合并策略剪枝冗余缓存,增强了关键值缓存中的上下文信息的保存,并在多个任务中明显优于现有的剪枝方法。
- ECCVMew:通过高效复用网络进行多路免疫荧光图像分析
通过构建多重网络的方法,Mew 框架显著提高了细胞异质性和可伸缩性的问题,并在 mIF 图像分析中取得了显著的效果和效率。
- ECCVFlexiEdit: 频率感知的潜在细化以增强非刚性编辑
FlexiEdit 通过细化 DDIM 潜在特征、减少针对性编辑区域的高频成分,以提高对输入文本提示的忠实度,实现了复杂非刚性编辑的突破,通过对比实验展示了其增强能力。
- KDD基于文本的神经协同过滤模型用于论文来源追踪
通过数据挖掘技术,利用预训练的语言模型 SciBERT 来处理论文的文本属性并提取模型的输入特征,在 KDD CUP 2024 中,设计了一个基于推荐的框架用于自动识别给定学术文章的重要参考文献。根据实验结果,该方法在平均准确率(MAP)指 - ECCVAttentionHand: 野外环境下基于文本的可控手部图像生成用于 3D 手部重建
使用 AttentionHand 方法进行文本驱动的可控手部图像生成,取得了文本到手部图像生成模型的最新成果,并通过 AttentionHand 产生的手部图像提高了 3D 手部网格重建的性能。
- KDDSaccadeDet: 基于新型双阶段架构的基于吉卜像素图像快速准确检测
通过模仿人眼的扫视运动,我们提出了 SaccadeDet 架构,针对巨像素图像进行目标检测。在 PANDA 数据集上的评估表明,我们的方法不仅在速度上超过了最先进的方法 8 倍,而且在巨像素级别病理学分析方面也有重大潜力,特别是应用于整张组 - ICML最优海森 / 雅可比无约束非凸 PL 双层优化
提出一种高效的无 Hessian/Jacobian 方法来解决非凸 - PL 双层问题,理论上证明其具有最佳收敛复杂度和梯度复杂度,并通过数值实验验证了该方法的高效性。
- MM多跳联邦学习中的稀疏增量聚合
本文研究了联邦学习在多跳通信设置中的应用,通过使用增量聚合方法来改善通信效率,提出了几种相关稀疏化方法,并通过数值结果展示了这些算法在减少收敛性问题的情况下,相比常规路由和最先进的稀疏增量聚合方法,提高了 15 倍和 11 倍的通信效率。
- MM创新的基于语音的深度学习方法在帕金森病分类中的应用:一项系统综述
帕金森病是全球第二常见的神经退行性疾病,人工智能特别是深度学习在语音数据分析方面的显著改进大大提高了帕金森病的诊断,然而研究的进展受到公开可获取的基于语音的帕金森病数据集的限制,主要原因是隐私和伦理方面的考虑。该综述论述了基于深度学习的人工 - ACL探索基于描述增强的无数据意图分类
利用当前最先进的文本嵌入模型,我们介绍了多种方案来利用描述增强的嵌入相似性进行无数据的意图分类。我们在四个常用的意图分类数据集上使用我们的方法并与类似的先前工作进行比较,结果显示我们的工作对于大量未见过的意图具有良好的扩展性。我们展示了有竞 - KDD网约车平台的长期公平性
通过动态的马尔可夫决策过程模型,提出了一种在出租车行业中解决公平性问题和平衡效率与公平性的方法,包括预测模块和多目标多主体 Q 学习的定制标量化函数,实验证明该方法优于现有的最新方法。
- ACLFIGNEWS 新闻媒体叙事共享任务
我们概述了 FIGNEWS 共享任务,该任务是作为与 ACL 2024 共同举办的 ArabicNLP 2024 会议的一部分进行的。该共享任务解决了多语种新闻帖子中的偏见和宣传标注问题。我们以加沙战争初期作为一个案例研究,旨在通过创建分析 - ACLBotEval: 促进交互式人工评估
自然语言处理 (NLP) 模型在交互任务的快速发展中越来越应用于越来越复杂的任务,我们开发了 BotEval,一个易于定制、开源的评估工具包,重点在于使人与机器交互成为评估过程的一部分,而不是仅对一个静态输入进行人工评判。通过评估各种聊天机 - ECCV轨迹对准的时空令牌用于少样本动作识别
我们提出了一个简单而有效的方法来进行少样本动作识别,强调了动作和外观表示之间的分离性。通过利用最近在追踪方面的进展,具体来说是点轨迹和自监督表示学习,我们构建了捕捉动作和外观信息的轨迹对齐令牌(TAT)。这种方法在保留必要信息的同时,显著减 - MM关于单模型和视觉语言预训练模型之间对抗漏洞的统一理解
利用特征引导攻击(FGA)生成对抗性图像,构建了引导特征和文本攻击(FGA-T)的多模态攻击方法,有效地攻击了视觉 - 语言预训练模型,并通过数据增强和动量机制提高了攻击的黑盒可传递性。