- 一种用于上下文化普通话语音识别的高效文本增强方法
使用简单的文本增强技术借助大量纯文本数据集来构建编码簿,可以提高预训练的 ASR 模型的上下文信息,从而显著提升识别性能。
- Transfer-LMR: 多样交通场景中的长尾驾驶行为识别
通过提出 Transfer-LMR 模块化训练方法,可以改善对驾驶行为类别的识别性能,尤其是对于少数表现出现次数较少的驾驶行为。
- 基于图像自适应可学习模块的低光图像识别性能改善
本研究提出了一种适应性图像学习模块,通过合适的图像处理和超参数预测,增强了低光条件下的图像识别模型的性能。实验证明,该方法能够有效提升低光条件下的图像识别性能。
- 理解预训练的视觉语言模型的多模态提示
通过对多模态提示的直接分析,我们发现多模态提示主要通过引入可学习的偏差项来改进预训练模型在相应数据集上的识别性能,从而提出了偏差调优的方法,并证明了该方法在数据集分类信息有限的情况下较多模态提示具有更好的效果。
- 掌纹识别的尺度感知竞争网络
利用创新的网络同时提取单一尺度和多尺度特征,改善先前方法中对纹理比例维度的忽视,并通过内尺度竞争模块和跨尺度竞争模块捕获与纹理方向和比例相关的特征。与现有方法相比,我们的方法在三个基准数据集上进行的严格实验明确展示了卓越的识别性能和抗干扰性 - KDDCAD 模型到现实世界图像:工业物体分类中无监督领域自适应的实用方法
通过分析工业环境中无监督领域适应的管道,本文系统地研究了目标分类。与领域中现有的标准自然目标基准相比,我们的结果突出了当只有分类标记的 CAD 模型可用但需要使用真实世界图像进行分类时的最重要的设计选择。我们的领域适应管道在 VisDA 基 - 手写数学表达式识别的语义图表示学习
手写数学表达式识别中的语义交互学习方法通过构建基于统计符号共现概率的语义图,设计语义感知模块,优化 HMER 和 SIL 来提高模型对符号关系的理解,并在基准数据集上展示了较好的识别性能。
- 甩手语识别的跨模态相互学习
该研究提出了一种基于变压器的跨模态相互学习框架,用于提高 Cued Speech 系统的自动识别性能,并在中文、法语和英语语言中取得了显着的识别性能提升。
- CVPR长尾分布下的对抗鲁棒性
本文探讨了长尾分布下的对抗鲁棒性问题,并提出了一个名为 RoBal 的有效算法框架,该框架包括两个模块:一个尺度不变分类器和数据再平衡。
- AAAI深度强化注意力学习用于品质感知视觉识别
通过在任何卷积神经网络的弱监督生成中间注意力图的机制上进行改进,揭示了注意力模块的有效性,提出了一种元质疑网络,并结合强化学习的方法进行优化,从而提高了注意力模块的表达能力,并在分类和实例识别基准测试上进行了广泛的实验验证。
- 属性混合:用于细粒度识别的语义数据增强
本文提出了一种数据增强策略 Attribute Mix,通过属性级别的数据增强方法,利用自动属性挖掘技术扩展细粒度样本,从而显著提高图像识别性能。同时基于属性的共享特点,在广义域的图像上训练可扩展属性级别的标签。实验证明了该方法的有效性。
- AAAI标签图叠加的多标签分类
本研究提出一种基于标签图叠加框架的多标签识别解决方案,以图卷积网络(GCN)为基础,通过超 impose 技术建立标签相互作用图,并将其与 GCN 及 CNN 的信息交流,以提高特征学习和数据表示。实验表明,该方法大大提高了多标签识别的性能 - 基于注意力机制的情境文本识别自适应嵌入门
本研究提出了一种新的模块,即自适应嵌入门 (AEG),并将其引入到注意机制中以解决预测限制对于文字场景识别表现的影响。该模块可以显著提高识别表现并带来更好的稳健性。
- 基于生成式深度神经网络的人脸去识别化
利用生成型神经网络构建一个新的面部去标识化流程,它可以合成虚拟的替代面部并应用于图像和视频中去标识化受试者,同时保留非身份相关的数据方面,并且证实这种基于 GNN 的去标识化方法非常有效,其去标识化后的图像能够达到近似随机的识别效果。
- 基于模板的人脸识别深度异质特征融合
本文提出了一种深度异构特征融合网络,用于增强不同深度卷积神经网络生成的特征之间的关联性,以实现基于模板的人脸识别任务,并在 IARPA Janus Challenge Set 3 (Janus CS3) 数据集上证明了本方法的有效性。
- 典型先验:从提高分类到零样本学习
使用视觉原型概念作为侧面信息,通过将深度网络的输入图像映射到原型嵌入空间,实现对交通标志和商标标志等数据集的图像识别性能的提升,并能够有效地应对零样本学习的情景,从而实现对已知和未知类的统一测试以及在这两个数据集上超越某些最新零样本学习方法