- 利用视频中的音频和视觉内容进行相机模型识别
提出了一个用于通过音频、视觉内容或两者的融合来识别设备的框架,使用了卷积神经网络进行设备识别问题的分类,并通过实验证明,在独立使用音频或视觉内容时,该框架表现出有希望的分类性能。此外,融合结果虽然并不始终超过单个模态,但展示了增强分类性能的 - V-Express:以進度式訓練為基礎的人像視頻生成的條件丟棄方法
通过渐进式训练和条件丢弃操作,我们提出了一种名为 V-Express 的简单方法,平衡了不同的控制信号,使得我们的系统能够同时考虑面部姿势、参考图像和音频,并在实验证明我们的方法能够有效地生成受音频控制的肖像视频,为不同强度的条件的同时和有 - 音乐中歌词和音频的联合情感分析
音乐中情感或心情可以在不同层面上表达自己。我们评估了基于歌词和音频的情感分析模型,并提出了结合音频和歌词结果的不同方法。我们还研究了音频和歌词情感之间的错误分类和矛盾,并确定了可能的原因。最后,我们解决了这个研究领域的一些基本问题,如主观性 - AI 在电子游戏中生成用户内容的音频
在视频游戏设计中,音频(包括环境背景音乐和物体音效)起着关键作用。我们探索了使用生成式人工智能根据用户生成的内容实时创建音乐和音效的方法,并讨论了使用生成式人工智能对用户生成内容进行音频生成的伦理问题。
- FlowVQTalker:通过正则化流和量化实现高质量的情感说话人脸生成
利用归一化流和向量量化建模生成既满足面部动态的同步性和多对多映射关系,又包含高清纹理和细节牙齿的情感说话脸,具体方法为通过流式系数生成器对面部情绪进行编码,利用伴随音频引导随机采样生成唇同步和不确定的非言语面部线索,并借助学习的码本提供富有 - 使用全卷积神经网络进行非固定长度语音的情感分析
提出了一种情感分析方法,能够接受任意长度的音频,使用 Mel spectrogram 和 Mel Frequency Cepstral Coefficients 作为音频描述方法,并提出了一种全卷积神经网络架构作为分类器。通过使用 EMOD - 自我上下文感知人机交互中的情绪认知
通过引入自我上下文感知模型 (SCAM),结合二维情绪坐标系统、独特信息保留结构和上下文损失,我们在音频、视频和多模态情景中显著提高了情绪识别的准确性。未来,我们将通过心理实验来验证 SCAM 在机器人上的可靠性和可用性。
- EMAGE: 通过掩码音频手势建模实现统一的整体共时手势生成
提出了 EMAGE 框架,从音频和掩码手势生成全身人体动作,包括面部、局部身体、手部和整体运动。该框架利用了 BEATX 数据集和掩码手势先验知识,通过联合训练实现音频生成手势和掩码手势重建,生成与音频同步的全面动作。
- 自主学习用于少样本鸟声分类
自监督学习在音频领域具有重要潜力,本研究证明自监督学习可以在无需注释的情况下从音频记录中获取有意义的鸟类声音表示,并展示了这些学习表示能够在少样本学习情景中泛化到新的鸟类物种。另外,使用预训练的音频神经网络,在自监督学习中选择高鸟类激活窗口 - 通过联合建模主要和非主要发言者改善长篇语音识别
ASR 模型经常在转录长时间音频时出现长篇删除问题,本研究通过引入新的技术,在音频中同时建模不同组的演讲者和标准转录标记,减轻了长篇删除问题。
- 无法被绑架的机器人:潜入者的声学定位
通过分析人类的杂音,研究了如何使用仅仅声音信息来探测机器人附近的人类移动行为,实现了机器人通过仅有被动声音感测技术跟踪悄悄移动的人类。
- 利用声学特性引导音频的情感表示
通过使用自然语言描述和基于声学特性的提示来更好地表示情绪的表达,我们提出了一种方法来自动生成这些提示并训练模型从音频和提示的组合中更好地学习情绪表示。使用声调、强度、说话速度和发音速度等与情绪相关的声学特性自动生成 ' 声学提示 ',通过对 - ICMLSpeech Wikimedia:一个包含 77 种语言的多语言语音数据集
维基媒体数据集是一个公开可用的音频和转录汇编,包含来自维基共享资源的 1780 小时(195GB)CC-BY-SA 许可的转录语音,在 77 种不同语言中包含了多种场景和讲话者。每个音频文件都有一个或多个不同语言的转录,使得此数据集适用于训 - LaunchpadGPT:将语言模型作为音乐可视化设计师在 Launchpad 上
提出了基于语言模型的 LaunchpadGPT 模型,以音频为输入并输出如何在 Launchpad 上自动演奏和呈现音乐可视化的光效视频,该方法比随机生成的方法能够创建更好的音乐可视化效果,并具有更广泛的音乐可视化应用潜力。
- QuAVF: 面向 Ego4D Talking to Me 挑战的音视频融合质量感知技术
本文介绍了 QuAVF@NTU-NVIDIA 团队在 Ego4D Talking to Me (TTM) Challenge 2023 中的参赛作品,该作品利用两个模型处理输入视频和语音,通过面部质量分数过滤嘈杂的面部输入数据并实现质量感知 - AudioSlots: 一种以时间块为中心的音频分离生成模型
本文提出了一种基于 slot 的生成模型,用于音频领域的盲源分离,采用 Transformer 架构的编码器学习将混合音频频谱映射到一组无序的独立源嵌入,采用空间广播解码器学习从源嵌入生成源频谱。通过无需监督学习的方式,在 Libri2Mi - VALOR: 视听语言全感知预训练模型和数据集
本文提出了一种用于多模态理解和生成的 Vision-Audio-Language Omni-peRception 预训练模型 (VALOR),该模型与先前广泛研究的视觉语言预训练模型不同,以端对端的方式共同建模视觉、音频和语言之间的关系,包 - 语音情感识别的实证研究与改进
本文提出了一种通过视角损失来改进的多模态语音情感识别模型,通过融合音频和文本信息来提高多模态任务的性能表现,在 IEMOCAP 数据集上获得了最新的最佳表现。
- 是否唤醒:通过连续细化减少关键字误报
该研究提出了一种基于 Successive Refinement 的简单而优美的解决方案,旨在降低关键词检测系统中的误报率,并表明无论模型的大小如何,该技术都能将误报率降低最多 8 倍,并且可以应用于任何深度关键字检测模型。
- CVPR音频到视觉潜在对齐的声音转视觉场景生成
本文提出了一种通过声音生成场景图像的方法,采用了深度学习等技术,结合声音定位和跨模态信息对齐来提高图像生成质量,并在相关数据集上得到了较好结果。