- 数据变化上机器学习进展的全面评述:跨领域视角
最近人工智能(AI)技术在各种学术领域和行业展现出了显著的发展。然而,在现实世界中,动态数据给 AI 模型的部署带来了主要的挑战。我们通过设置数据变化来识别两个主要的相关研究领域,即领域转移和概念漂移。虽然这两个热门研究领域旨在解决分布转移 - Pan-Mamba: 有效的全色融合方法与状态空间模型
本研究提出一种使用 Mamba 模型进行全局信息建模的新型 pan-sharpening 网络 ——Pan-Mamba,通过轻量级的交叉模态交互和利用内在的跨模态关系,实现高效的信息表示和融合,并在各种数据集上超过了现有方法,在 pan-s - 使用卡尔曼滤波约束的姿态估计的四维变形部分模型
使用卡尔曼滤波器与 4 维变形模型部分解法相结合对姿态估计精度的影响进行分析,实验结果表明该方法比先进方法提高了姿态估计的准确度,并且卡尔曼滤波器有助于提高此准确度。
- SIMPL:自动驾驶中一种简单高效的多智能体运动预测基线
该研究论文提出了一种针对自动驾驶车辆的简单高效动作预测基准(SIMPL),通过采用紧凑高效的全局特征融合模块和连续轨迹参数化方法,实现对所有相关交通参与者的实时准确运动预测,并在与其他最先进方法的 Argoverse 1 和 2 运动预测基 - ChatGPT 对面部生物特征识别、软生物特征和可解释性的初步研究
使用基于最近的 GPT-4 多模式 LLM 开发的 ChatGPT,本研究旨在探索 ChatGPT 在面部生物识别任务中的能力,包括面部验证、软生物特征估计和结果解释性,并通过与该领域的最新方法进行比较,分析了 ChatGPT 的性能和鲁棒 - 基础模型的训练和服务系统:综合调查
本文全面探讨了基础模型的训练和服务方法,提供了详细的分类,并总结了挑战和未来发展方向。通过全面的讨论和分析,为未来的研究和应用提供了坚实的理论基础和实践指导,促进基础模型系统的持续创新和发展。
- 多尺度视觉 Transformer 结合二分图匹配进行高效单阶段动作定位
这篇研究旨在解决行动定位的问题,提出了一种基于 MViTv2-S 模型、使用匹配损失函数的架构,通过直接应用视觉转换器的输出标记进行双向匹配,实现同时完成行动定位和目标检测的任务,在 AVA2.2 数据集上相对于两阶段方法,在 mAP 上取 - MIM4DD:数据集精炼的互信息最大化
我们引入互信息作为衡量合成数据集与真实数据集之间共享信息量的度量标准,并通过对比学习框架内的新设计的可优化目标来数值化地最大化互信息,从而更新合成数据集。实验证明,这种方法可以作为现有先进方法的附加模块来实现数据集精简。
- 具有随机正则化生物力学平衡的可变形图像配准
这项研究介绍了一种不需要离散化的正则化策略,它在医学图像配准中保留了物理上激励的优势,同时与当前的配准框架兼容,并在合成和真实数据集中表现出与当前最先进方法相当的准确性。
- 分割任意物体模型与图像融合
本文提出了一种利用语义分割地图指导前景和背景特征的视觉一致性学习的方法,称为语义引导的区域感知实例标准化(SRIN),并且通过丰富的实验验证了该方法在图像协调中的优越性。
- 非冗余聚类的自动参数选择
该论文提出了一个利用最小描述长度原则(MDL)自动检测子空间数量和每个子空间中的簇数的框架,并描述了一种有效的过程,通过在子空间内进行分裂和合并子空间和簇来贪婪搜索参数空间。此外,介绍了一种编码策略,可在每个子空间中检测异常值。广泛的实验表 - 回归任务的简单可迁移性估计
我们提出了两种简单且计算高效的方法,基于线性回归模型的负正则化均方差误差来估计优化的目标模型的转移性,在准确性和效率两方面显著优于现有的最先进的回归可转移性估计器。
- 通过大型视觉语言模型生成面向人物 - 物体交互检测的人类中心视觉线索
在这篇论文中,我们提出了三个用于生成图像中的人类中心视觉线索的提示,并结合了多人的多视角来生成丰富的人类中心视觉线索,以用于人物 - 物体交互检测,我们的实验证明了利用这些生成的人类中心视觉线索进行交互检测的有效性,而我们提出的模型在两个广 - 多模型行为识别中利用互补信息的模态混合器
提出了一种名为 Modality Mixer (M-Mixer) 网络的新型网络,有效地利用和整合不同模态的互补信息和动作的时间上下文,以实现动作识别,通过在 NTU RGB+D 60、NTU RGB+D 120 和 NW-UCLA 数据集 - DPATD: 双阶段音频变压器降噪
通过利用较小的音频块作为输入,我们提出了一种名为 DPATD 的双相音频变压器模型,该模型组织了一个深层结构的变压器层以学习用于降噪的清洁音频序列。广泛的实验证明我们的模型优于现有技术方法。
- EMNLP命名实体识别的边界偏移预测网络
命名实体识别是自然语言处理中的一项基本任务,该论文提出了一种名为边界偏移预测网络(BOPN)的新方法,通过预测候选跨度与其最近实体跨度之间的边界偏移来建立非实体跨度和实体跨度之间的联系,实现了非实体跨度作为额外正样本进行实体检测,进而将实体 - 深度综合解释
该研究提出了 Deep Integrated Explanations(DIX)—— 一种用于解释视觉模型的通用方法,通过整合模型的中间表示和相应的梯度来生成解释图,通过广泛的客观和主观评估展示了 DIX 在生成准确和可靠的解释图方面超越了 - 多尺度动作感知和时空通道上下文编码网络用于学习视频压缩
提出一种基于运动感知、空时域通道上下文编码的视频压缩网络 (MASTC-VC),该网络利用变分自编码器 (VAEs) 学习隐藏表示,捕捉帧内像素和帧间运动的特征,并通过多尺度运动感知模块 (MS-MAM) 和空时域通道上下文模块 (STCC - 可训练的等效转换:用于 LLMs 的量化
这篇论文介绍了一种可训练的等价转换方法,能够在保持模型输出的 FP32 精度的情况下,利用低精度量化,特别是 3 位和 4 位的权重量化来满足现代架构的计算需求,该方法在训练过程中轻量级且对推断过程没有计算开销,与当前最先进方法的结果相媲美 - 令人尴尬地简单文本水印
Easymark 是一种简单且有效的文本水印方法,可以在不改变文本意义的情况下注入水印,并能高效可靠地检测是否由采用 Easymark 的系统生成的文本,实验证明 Easymark 在检测准确性和 BLEU 分数方面优于现有的文本水印方法。