- 情感多模态病理语音数据库的设计、构建与评估
构建了第一个包含多视角信息的中文多模态情感病理性言语数据库,标记了 29 个对照组和 39 个不同程度运动性言语障碍患者表达快乐、悲伤、愤怒和中性情绪的情感言语,并通过精确度、言语可懂性、价值 - 唤醒空间分布和 SCL-90 与疾病严重程 - 为老年人和患有言语障碍者的 Conformer 语音识别系统进行超参数调整
研究了预训练于 Librispeech 语料库上并经过领域适配后用于识别老年人和患有运动障碍的语音数据集的 Conformer ASR 系统的超参数自适应,证明其能够显著提高词错误率的表现。
- 自动浮游生物图像识别调查:挑战、现有解决方案和未来展望
通过综述现有方案,本文讨论了浮游生物自动识别中最大的挑战,并提出新数据集中面临的难点以及解决方案,并指出仍存在的几大问题,如不同数据集之间的领域转移、未曾见过的类别的图像处理难度和专家注释的不确定性,这需要加以解决。
- 利用基于机器学习的模型进行个性识别
本文提出一种基于深度学习的方法,结合了卷积神经网络和 AdaBoost 算法对人格进行自动识别,并在 Essay 数据集上得到了比机器学习和深度学习方法更优的实验结果。
- 使用条件随机场进行保加利亚语特征丰富的命名实体识别
该论文提出了一种功能丰富的方法,用于对新闻文本中的命名实体(人物、组织、地点和其他)进行自动识别和分类,特别重视 Bulgarian 的词汇、句法和形态的信息以及本土化的标记集和领域特定的地名词典的使用,达到了与英语最先进结果相当的 89. - 用于音乐乐器识别的注意力机制
本篇论文讨论了针对乐器识别难题的注意力机制,并针对数据弱标签的问题,使得在 OpenMIC 数据集上的多标签乐器识别精度得到提升。
- MM自动音乐情感识别的新多标签系统
本研究从机器学习角度分析了 Geneva Emotional Music Scale 9 在 Emotify 音乐数据集中的适用性,探讨了情感通过音乐表达感染的自动识别。
- 对话语音转录中人类和机器误差的比较
本研究旨在探讨自动语音识别和人工转录的差异以及相关性,并通过 Turing 测试验证其性能。
- 口语对话中移情注解和建模
本文提出并评估了一种情感识别标注方案,通过构建自动分割和分类系统,通过调查语言和声学空间中的特征来识别通话中的共情。该系统在呼叫中心对话中表现出明显的优异性能。
- ChineseFoodNet:一个用于中式菜品识别的大规模图像数据集
介绍了一个名为 “ChineseFoodNet” 的新型大规模食品图像数据集,旨在自动识别中国菜;该数据集包含 208 类别的 18 万多个食品照片,通过使用深度卷积神经网络与投票方法的机器学习方法,该方法在验证集和测试集分别达到了 81. - CVPRViraliency:局部病毒性池化
本文介绍了一种基于深度学习的图像识别方法,利用所提出的 “纵向最大平均池化层”(LENA)来预测和定位网络传播的图像或视频,并在两个公共数据库上的实验中取得了优越的表现。
- 利用多类 AdaBoost 和支持向量机进行图像序列中基于几何特征的面部表情识别
本研究提出了一种全自动面部表情识别的新方法,该方法利用弹性束图匹配位移估计跟踪连续视频帧中的面部特征点,提取各个特征点的特征向量并进行归一化,通过多类 AdaBoost 和支持向量机方法识别面部表情,并在 Cohn-Kanade(CK +) - 利用类别组件与本地模型相结合的视频监控活动识别
本文提出了一种用于视频监控应用的自动识别人类活动的方法,将活动表示为类别组件的组合,并且提出了一种 Confident-Frame-based Recognition 算法来提高识别精度,该算法将高置信度的视频帧用作专门的局部模型来帮助分类 - 视频监控中,具有不同团队成员数量的团队事件检测
本文介绍了一种自动识别视频监控中群组活动的新方法,提出使用群体代表来处理识别,使用异步隐马尔可夫模型来建模人际关系,并提出了一种既能处理对称性又能处理非对称性群组活动的算法,证明了该方法能够检测人与人之间的分层互动关系,实验结果表明了方法的