audio | BriefGPT - AI 论文速递

关键词audio

搜索结果 - 67

适应性格斗游戏背景音乐：一种多乐器音量调制方法
本文提出使用自适应背景音乐（BGM）增强 DareFightingICE 的方法。自适应 BGM 由五个不同的乐器演奏一首古典音乐作品 “G 弦上的爱情” 组成。通过改变各个乐器的音量，实现自适应。运用深度强化学习 AI 进行评估，结果表明
PDFa year ago
Epic-Sounds: 一个大规模的动作声音数据集
本文介绍了 EPIC-SOUNDS 数据集，该数据集包含 78.4k 个用于声音事件和行动识别的类别化段，以及 39.2k 个非类别化段。通过构建注释流程，该数据集具有时间标签和类标签，允许我们训练和评估两种状态最佳的音频识别模型，突出了仅
PDFa year ago
AAAIStyleTalk：可控话语风格的单镜头说话人生成
提出了一种一次性风格可控的说话人脸生成框架，可以从任意参考说话视频中获得一种说话风格，并将一次性画像驱动为使用参考说话风格和其他音频进行说话。
PDFa year ago
基于 Transformer 的音视觉上下文利用的遮蔽唇同步预测
本文提出了一种基于 Audio-Visual Context-Aware Transformer (AV-CAT) 框架的口型同步技术，可同时利用音频和视频信息，通过设计卷积 - Transformer 混合骨干网络和基于注意力机制的融合策
PDF2 years ago
数字音频取证：盲目人类语音模仿检测
该论文使用深度学习方法建立了一个分类器，用于区分输入音频是否为真实录制，有助于解决 AI 技术使犯罪和伪造更容易的问题。论文中提供了英语和英阿混合语数据集，并对该分类器进行了人工核查以验证其准确性。
PDF2 years ago
ECCV使用 SSW60 数据集探索细粒度音视频分类
本文介绍了一种新的基准数据集 SSW60，旨在促进音视频细粒度分类研究，覆盖 60 种鸟类，可用于图像、音频和视频分类，实验结果表明，使用音视频融合方法比单独使用图像或音频方法的性能更好，同时进行了有趣的模态转换实验。
PDF2 years ago
BYOL-S: 通过启动自助学习的方式学习自监督语音表示
本研究使用自我监督学习与深度神经网络等方法，探索提取声音和语音特征的最优表征，提出了多种编码器架构，并探讨了不同的预训练数据集。最后，我们提出了一个新的训练框架，用于结合手工特征和数据驱动特征，得到一个混合音频表征。在 HEAR 毕业设计的
PDF2 years ago
ATST: 带有教师 - 学生 Transformer 的音频表示学习
本文提出了一个新的基于 Transformer 编码器的自监督学习模型 ——ATST，该模型可解决分段级别的音频自监督学习问题。在新的正对配对策略的支持下，ATST 模型在多项下游任务中实现了最新的最佳表现。
PDF2 years ago
基于双向 LSTM 和时间分布的 CNN 的语调和语义特征预测抑郁症严重程度
提出了一种基于多模态语音和文本表达的关注机制用于预测抑郁症，使用 DAIC-WOZ 数据集训练所提出的模型，分别在音频、文本和多模态情况下进行了实验，并取得了较好的预测效果。
PDF2 years ago
Music2Video：音频和文本融合的自动生成音乐视频
利用多模态特征空间中的文本和音频嵌入指导生成模型的生成图像，进一步实现音乐视频创作，我们提出的方法需要对视频进行自动分段，同时保持时间上的一致性，与以前的方法不同，我们的方法融合了文本和音频两个模态，展示了良好的应用效果
PDF2 years ago
CVPRMERLOT Reserve: 通过视觉、语言和声音获得神经剧本知识
介绍了一种多模态预训练模型 MERLOT Reserve，该模型在预训练时利用音频、字幕和视频帧一起学习，可以实现强大的多模态表示，并在一些视频任务上取得了领先水平，提出了音频为何能够提高视觉 - 语言表示的可能性，并讨论了这种多模态预训练
PDF2 years ago
MM大学群体中针对音频深度伪造的感知
研究了不同专业的大学生对音频 Deepfake 的感知，针对政治因素、语音长度和语法复杂度等方面进行分析，发现音频 Deepfake 的政治含义会影响人们对于其真实性的认知，背景和专业会影响 Deepfake 的感知。
PDF3 years ago
RAVE: 一种快速高质量神经音频合成的变分自编码器
本文介绍了一种实时音频变分自动编码器 (RAVE)，允许快速且高质量的音频波形合成，采用多频段分解处理原始波形。通过后训练分析潜在空间，实现重构保真度与表示紧凑性之间的直接控制。例如对于音质转换和信号压缩等应用，该模型相比于现有模型表现更优
PDF3 years ago
音频 Transformer 的 Patchout 高效训练
本文提出一种优化和正则化变压器模型的新方法，使其在音频光谱图上实现了新的最优性能，同时提出了一种在性能和训练速度上均优于 CNN 的变压器模型。
PDF3 years ago
多模态摘要综述
本文综述了多模式自动摘要 (MMS) 领域内的现有研究，包括文本、图像、音频和视频等各种模式。除了强调用于 MMS 任务的不同评估指标和数据集之外，我们的工作还讨论了该领域中当前的挑战和未来方向。
PDF3 years ago
SpecMix : 一种混合样本数据增强方法用于基于时频域特征的训练
本文提出了一种混合样本数据增强策略 Specmix，可以提高模型在音频场景分类、声音事件分类和语音增强任务中的性能。通过应用时间频率掩码来混合两个不同的数据样本，有效地保留音频数据中的频谱相关性，实验表明，该方法可以最大程度地提高各种神经网
PDF3 years ago
CVPRLipSync3D：使用姿态和光照规范化从视频中高效学习个性化的三维说话脸
本文提出了一种基于视频学习的框架，用于从音频中制作个性化的 3D 说话人脸，其中使用面部标准化和自回归方法来提高样本效率并生成高保真的口型同步视频。
PDF3 years ago
基于视听线索的抑郁症识别深度学习：综述
介绍了深度学习技术在自动抑郁症检测中的应用方法，包括音频和视频中的抑郁指标，最后讨论了深度学习技术在自动抑郁诊断方面的挑战和前景
PDF3 years ago
ICCVImage2Reverb: 跨模态混响脉冲响应合成
通过使用神经网络从单幅图像生成音响脉冲响应，可以模拟图片所示的空间中的混响特性，为测量空间的声学特征提供了一个更加便捷的方法。
PDF3 years ago
ICLRLEAF: 可学习的音频分类前端
利用可学习前端代替 mel-filterbank，可普适于语音、音乐、声音事件和动物声音信号的分类，同时在多种分类任务和 Audioset 中表现出比 mel-filterbank 更好的性能，且参数更少。
PDF3 years ago