- ECCV如何训练有效知识蒸馏的教师模型
通过使用均方误差损失训练教师模型,本文指出教师模型的核心任务是提供与贝叶斯条件概率密度相似的条件概率密度估计,因此使用均方误差损失训练教师模型在现有知识蒸馏方法中稳定提高学生的准确度,结果显示准确度提高了 2.6%。
- ACL通过直接偏好优化的自我训练改进链索式推理
研究表明,通过自我训练和直接偏好优化方法,能够提高小规模语言模型在数学推理任务中的推理能力,从而提供一种比依赖大型专有语言模型更高效且可扩展的解决方案。
- 改进样本相似性图的对比学习中的 $\mathbb {X}$- 样本对比损失
通过修改相似性图表以明确样本之间的关系,我们重新设计了标准对比损失函数,以获得更好的表征学习,它在视觉模型中优于自监督学习和视觉语言模型,同时鼓励模型学习将对象与其属性和背景分离。
- 植物害虫鉴定及实用鉴定框架开发研究
农业生产需要实用且稳健的自动化诊断系统,本文研究了植物害虫图像识别中的三个关键问题,并利用 334K 张图像和 20 种害虫,研发了一个准确、稳健和快速的植物害虫识别框架,其中包括 ROI 检测和基于卷积神经网络的识别,表现出了高效的性能。
- MMDAC: 通过分割调整和修正实现具有噪音标签的 2D-3D 检索
我们提出了一个 DAC 框架,用于跨模式检索数据中的 2D/3D 内容,通过多模态动态划分和自适应对齐校正来提升模型性能。在真实环境中的实验结果表明,我们的 DAC 模型在传统和新提出的基准测试上具有广泛的适用性和优越性。
- 图神经常微分方程用于粗粒化的社会经济动力学
我们提出了一种数据驱动的机器学习方法来建模时空社会经济动态,通过粗粒化细观测数据,我们的建模框架将这些复杂系统简化为一组可操作的机制关系,以普通微分方程的形式呈现,同时保留了关键系统行为,这种方法可用于快速进行‘假设’研究和敏感性分析,对于 - 嵌套的复制者动态、嵌套的 Logit 选择和基于相似度的学习
在游戏中考虑了一种具有基于分区的相似度结构的学习和演化模型,目的是捕捉策略之间的外部相似性。通过对类似策略的隐式偏好,产生的动态被称为嵌套复制动态,尽管不符合模仿式游戏动态的标准单调性公设,但我们证明它们保留了复制动态的主要长期合理性特性, - 法文文本难度评估与简化
利用生成式大型语言模型来进行语言学习应用,主要关注于估计外语文本的难度并将其简化为较低的难度层次。我们将这两个任务都视为预测问题,并使用标记示例、迁移学习和大型语言模型来开发难度分类模型,与以往方法相比,展示了更高的准确性。对于简化方面,我 - 基于放射学特征的机器学习模型用于计算机辅助诊断的跨供应商可重复性
该研究探讨了支持向量机(SVM)和随机森林(RF)模型在前列腺癌检测中的可重复性问题,通过多模态特征融合提高临床决策支持的潜力,为跨不同影像平台的机器学习模型提供稳健性和广泛适用性。
- PEFT-U: 用户个性化的参数高效微调
近年来,大型语言模型的出现标志着人机交互的新时代。然而,个性化这些模型仍然是未经充分研究的一个关键方面。本文提出了 PEFT-U 基准数据集,用于构建和评估用于用户个性化的 NLP 模型,探索在多样的用户中心任务背景下有效个性化 LLM 以 - 通过深度迁移学习推动 3D 点云理解:一份综合调查
本文首次综述了使用深度迁移学习和领域自适应方法来理解三维点云的最新技术,包括知识转移策略、性能评估,以及在目标检测、语义标签、分割、分类、配准、下采样 / 上采样和降噪等各个应用领域上的应用,同时指出了现有框架的优势、局限性,确定了开放性挑 - 利用 LLM 生成的上下文描述提高领域特定自动语音识别
通过使用最先进的 Whisper 模型,同时结合 Fine-tuning 解码器和上下文扰动两种训练技术,以及使用大型语言模型 (LLM) 生成描述,我们提出的方法能够显著提高领域特定自动语音识别系统在现实数据集上的准确性,其中 LLM 生 - 关键知识点可提示的重新识别
本研究提出了基于关键点提示的被遮挡人员重新识别问题的新解决方案,引入了 Occluded-PoseTrack ReID 数据集,通过在输入边界框中添加语义关键点标记,解决了多人遮挡情况下无法确定重新识别目标的问题,并通过实验证明该方法在各种 - MPox Detection Advanced: 通过合成数据实现快速疫情响应
采用计算机视觉快速开发疾病检测模型对医疗紧急情况具有重要意义,本研究通过构建综合的计算机视觉模型,仅使用合成数据检测 Mpox 病变,结果表明模型具有高准确率、高精确度和召回率,并展示在未来医疗紧急情况下开发准确的计算机视觉模型的潜力。
- MDS-ED:应急科室中的多模态决策支持 —— 诊断和恶化预测的基准数据集
本研究介绍了一种基于 MIMIC-IV 数据集的多模态决策支持基准测试协议和初步结果,旨在评估急诊科的多模态决策支持。研究发现,多模态诊断模型在心脏问题、非心脏疾病和其他 1428 个医学情况中的 357 个条件以及 13 个关键目标方面取 - StreamMOS:多视角感知和双跨度记忆的流式移动物体分割
基于激光雷达的移动物体分割是自动驾驶和移动机器人领域内重要且具有挑战性的任务。本文提出了一种具备记忆机制的流式网络,称为 StreamMOS,用于建立多个推理过程中特征和预测之间的关联,并通过时间融合利用历史特征加强当前推理。此外,该算法采 - 基于 CNN 和物理信息神经网络的两阶段成像框架用于完全反问题层析成像:以电阻抗层析成像为案例研究
通过将偏微分方程作为损失项融入神经网络并在训练过程中最小化损失函数,物理知识驱动的神经网络 (PINNs) 是一种用于求解偏微分方程的机器学习技术。本研究提出了一个两阶段混合学习框架,将卷积神经网络 (CNNs) 和 PINNs 结合起来解 - EllipBench:基于机器学习的椭圆度建模的大规模基准测试
应用椭偏光谱测量薄膜的光学特性和厚度,在反问题求解时传统的机器学习方法需要耗费大量时间和人工技术,为此,本研究提出了一种深度学习框架,结合残差连接和自注意机制,使用大规模基准数据集进行训练,在薄膜厚度预测方面取得了最先进的性能。
- 大型语言模型的泛化界限在解锁令牌作为数据点上
使用 martingales 的特性,通过 Monarch 矩阵、Kronecker 分解和后训练量化技术,获得大规模语言模型(LLMs)的非平凡泛化界限,适用于实际部署并能生成高质量文本的模型。
- ECCV球面图像的几何保真度
球面或全方位图像提供了一种引人注目的沉浸式视觉格式,适用于广泛的计算机视觉应用。然而,球面图像的几何性质对于设计用于普通 2D 图像的模型和度量标准构成了一大挑战。我们介绍了两个量化几何约束的定量度量标准,即 Omnidirectional