- WavRx:一种疾病不可知、通用和隐私保护的语音健康诊断模型
提出了一种能够捕捉通用语音表示中呼吸与表达动态的语音健康诊断模型 WavRx,该模型在六个病理语音数据集上的领域内和领域间实验表明 WavRx 是一种新的最先进的健康诊断模型,并且在没有额外指导的情况下,WavRx 健康嵌入中包含的说话者身 - 它们是否指的是 ' 我们 '? 解释不同群体偏见中的指代表达
通过在英语体育评论中对隶属群体内外言论(群体偏见)的模型,本文揭示了在社会现象如刻板印象延续和隐性偏见中可能存在的微妙差异。为了大规模分析群体间变化,我们使用 LLMs 进行自动标记,并发现一些 LLMs 最佳工作方式是在评论时使用语言描述 - SD-Eval: 口语对话理解的基准数据集超越文本
为了评估和改进大型语言模型在口语对话理解和生成方面的能力,我们提出了 SD-Eval 标准数据集,该数据集聚合了代表情感、口音、年龄和背景声音的四个维度的 7,303 个话语,总计 8.76 个小时的语音数据,并通过客观和主观评估方法,以及 - EARS: 一个用于语音增强和去混响的各向同性全频通话语音数据集的基准测试
发布了 EARS(Expressive Anechoic Recordings of Speech)数据集,包含来自不同背景的 107 位说话者,总计 100 小时的干净、无混响的语音数据。数据集涵盖了多种不同的讲话风格,包括情感性语音、不 - 一个大规模评估的语音基础模型
我们建立了语音处理通用性能基准(SUPERB),使用冻结的基础模型和任务专门化的轻量级预测头,证实了基础模型范式在语音处理中的潜力和我们的多任务框架的简单而有效性,具备竞争力的泛化能力。我们还进行了一系列分析,深入了解 SUPERB 和语音 - 语音匿名化对病理学的影响及其局限性
对匿名化技术在病理性语音中的影响进行了研究,发现它可以增强隐私性,同时强调了为了应对逆向攻击,需要采用定制化方法来平衡隐私和诊断效用。
- TartanAviation:终端空域操作的图像、语音和 ADS-B 轨迹数据集
TartanAviation 是一个开源的多模态数据集,集中在终端区域空域操作上,提供了图片、语音和 ADS-B 轨迹数据,可用于在空中交通管制系统中集成人工智能和机器学习技术以及推进自主飞行器的采用。
- NatSGD: 自然人机交互中机器人学习的包含语音、手势和演示的数据集
NatSGD 是一个多模式人机交互数据集,在机器学习和人机交互研究交叉领域起到基础性的作用;我们通过训练机器人理解多模态人类指令的任务来展示其效果,并强调了同时考虑语音和手势的重要性。
- IndicVoices:为印度语言构建一个包容性的多语言语音数据集
我们提供了 INDICVOICES 数据集,该数据集包含来自 16237 名发言人的 7348 小时自然和自发的语音,涵盖了 145 个印度地区和 22 种语言。通过本文,我们分享了捕捉印度文化、语言和人口多样性的旅程,为数据收集提供了标准 - SpiRit-LM: 交叉融合的口语和书面语言模型
我们介绍了 SPIRIT-LM,这是一个混合文本与语音的基础多模态语言模型。我们基于一个预训练的文本语言模型扩展到语音模态,通过在文本和语音单元上进行连续训练来实现。语音和文本序列被连接为一组单词,并使用小型的自动化筛选的语音 - 文本平行 - SpeechAct: 从语音生成全身动作
通过使用混合点表示,并结合对比运动学习方法,本研究提出了一种从语音中生成全身动作的模型,以解决现有方法在从语音中生成多样且合理的全身动作时所面临的挑战。
- EMNLP量化韵律与文字之间的冗余性
语调在某种程度上与言语本身及其前后的上下文的信息重复,但仍然包含超越语言的信息。使用大型语言模型,本研究通过英文有声读物中提取的韵律特征与 LLMs 嵌入之间的预测性比较,发现多个韵律特征(包括强度、持续时间、停顿和音调曲线)与言语的信息具 - LIP-RTVE:西班牙连续口语的音视数据库
本文介绍了一个半自动注释的音视频数据库,用于处理自由自然的西班牙语,提供了来自西班牙电视的 13 小时数据。此外,报告了基于隐马尔可夫模型的发言人相关和发言人无关情景的基准结果,这是一种在语音技术领域广泛使用的传统范式。
- PARK: 帕金森病远程运动分析
我们提出了一个基于网络的框架,通过允许用户在家进行神经学测试来筛查帕金森病(PD)。我们的网络框架指导用户完成涉及语音、面部表情和手指运动的三个任务。通过分析任务视频来分类用户是否显示出 PD 的迹象。我们以易于理解的方式呈现结果,并提供个 - 学习解缠绕语音表示
利用综合研究人工数据集 SynSpeech 来评估监督技术在语音表征解耦上的效果,弥补有限的语音数据集缺乏已知生成因素的问题,为现有最先进的语音表征学习方法提供全面的评估和框架,进一步推动这个相对较少探索的领域的发展。
- 身体声响:利用身体姿势和音频进行人体 3D 空间声音建模
通过从头戴式麦克风获取的音频信号和身体姿势作为输入,生成围绕发射者身体的三维声场,从而可以在三维空间的任意位置呈现空间音频。
- 基于流匹配的语音生成预训练
我们展示了一个单一的预训练生成模型可以适应不同的下游任务,并展示了其在语音增强、分离和合成方面的性能优于现有专家模型,为语音生成任务构建了一个基础模型。
- EMNLP学习用于多模式失语类型检测的共言手势
我们提出了一种基于语音和相应的手势模式的多模态图神经网络,用于检测失语症类型,通过学习每种失语症类型中语音和手势模态之间的相关性,我们的模型能够生成对手势信息敏感的文本表示,实现了准确的失语症类型检测,实验证明了我们方法的优越性 (达到了 - SD-HuBERT:自蒸馏在 HuBERT 中引发音节组织
在自监督学习中,通过基于数据的单元发现在语音处理领域迈入了新的阶段。本文展示了在学习语音的句子级表示中出现了音节组织。通过采用 “自蒸馏” 目标函数,在没有任何监督的情况下,对预训练的 HuBERT 进行微调,并添加一个汇总整个句子的聚合器 - 通过感知的声音特质实现说话人身份的可解释表示
通过添加性别感知语音特征到 Consensus Auditory-Perceptual Evaluation of Voice(声音感知评估协议)中,基于感知声音特征的方法提供了一种成人声音性格的感知潜在空间,作为高层次人口统计学信息和低层