SpeechBrain 1.0 是一个开放源码的对话 AI 工具包,基于 PyTorch,主要关注于语音处理任务,如语音识别、语音增强、说话人识别、文本到语音等,它提供了预训练模型和完整的代码和算法 “配方” 以促进透明度和可复制性。SpeechBrain 1.0 引入了新技术来支持多样化的学习方式,大型语言模型(LLM)的集成和先进的解码策略,同时提供了新的模型、任务和模态,并包括一个新的基准库,为研究人员提供了一个统一的平台来评估各种任务的模型。
Jun, 2024
介绍了 Open Brain AI 平台,该平台利用机器学习和自然语言处理等 AI 技术自动分析口头和书面语音产生,其提供的可靠和高效的测量能够提高诊断的准确性并优化治疗策略,同时也减轻了临床医师的工作量并让他们能够把更多的时间和资源投入到直接患者护理中。
Jun, 2023
NeurST 是一个面向 NLP 研究人员的开源神经语音翻译工具包,主要侧重于端到端语音翻译,并提供特征提取、数据预处理、分布式训练和评估的逐步指南,旨在为该领域建立可靠的基准,并持续更新其性能。
Dec, 2020
脑到语音技术可直接将脑信号转化为语音,通过神经表征学习与语音合成相结合,以提高自然交流的流畅性,可能为非语言沟通带来创新。本文介绍了当前的脑到语音技术,探讨了脑信号转化为语音的可能性,并对执行语音时的神经特征和神经语音嵌入进行了综合分析,这对于语音合成的工作具有重要作用。
Dec, 2023
本文提出了一种通用模块化模型 SpeechNet,将所有语音处理任务分为语音 / 文本输入和语音 / 文本输出格式,并选择五个重要的语音处理任务进行多任务学习实验。研究表明,SpeechNet 学习了所有以上任务,并进一步分析了哪些任务可以通过其他任务得到改进。
May, 2021
SpeechX 是一种通用的语音生成模型,能够实现零 - shot 语音合成和各种语音转换任务,处理干净和嘈杂信号。SpeechX 结合了神经编解码器的语言建模和多任务学习,通过任务相关的提示实现统一和可扩展的建模,并在语音增强和转换任务中提供一致的方法来利用文本输入。实验结果表明,SpeechX 在零 - shot 语音合成、降噪、目标扬声器提取、语音去除和语音编辑等多种任务中表现出效果,与专门模型相比实现了可比或更好的性能。
Aug, 2023
本文提出了基于 HuBERT 自监督语音表示法的通用语音分析引擎架构,能够处理多个语音处理任务并支持小型数据集的新任务。实验结果表明,在语言识别和情感识别任务上,该引擎的表现超过了现有的最高水平,并且在使用少量训练数据的情感识别任务上也具有改进的能力。
Mar, 2022
提出了一种名为 BotsTalk 的新框架,其中多个代理参加交谈以自动注释多技能对话,并展示了一个名为 BSBT 的大规模多技能对话数据集,通过广泛的实验表明,我们的数据集对于需要理解技能融合和技能基础的多技能对话系统非常有效。
Oct, 2022
ESPnet-ST 是一个新的项目,它是一个专门为在单一框架中快速开发语音到语音翻译系统而设计的,它集成或重新实现了自动语音识别、机器翻译和文本到语音功能。
Apr, 2020
本文探讨了在与人类进行自然语言对话或直接语音交流的过程中,将对话系统的研究置于综合智慧的广阔背景之中,从而引入来自神经生物学和神经心理学的概念,以定义能够调和手工设计和人工神经网络的行为架构,并为模仿或指导式学习等未来新的学习方法开启新的可能性。并且,本文介绍了一种神经行为引擎,通过使用图形化语言基于手工模型创建混合主动对话和动作生成。通过在半公共空间上运行的虚拟接待员应用程序,描述了这种类脑启发架构的可用性示范。