- 口述历史研究的语音技术服务
口述历史是关于历史事件的口头见证人和评论者的口头资料。语音技术是处理这些记录以获得转录和进一步改善口述记述结构的重要工具。本文介绍了 BAS 的转录门户和与语音处理相关的网络服务,LINDAT 开发的语音解决方案,以及使用 Whisper - Interspeech 2024 离散语音单元挑战中的语音处理技术报告
本文介绍了上海交通大学 X-LANCE 小组在 Interspeech 2024 离散语音单元挑战赛的 TTS(声学 + vocoder)、SVS 和 ASR 任务中开发的系统,尤其是在 TTS 任务中,无论是使用整个训练集还是仅 1 小时 - COLING鬣狗如何处理人类语音?使用 ConfHyena 进行语音识别和翻译
借鉴 Hyena 模型进行改进,我们提出了 ConfHyena 模型,以减少长序列语音处理的计算时间并保持较高的质量表现。在英语的自动语音识别和从英语到 8 种目标语言的翻译实验中,我们的 ConfHyena 模型在训练时间上节约了 27% - 俄语和英语元音声音参数的比较
在多语种语音识别系统中,当语言事先未知但信号已接收并进行处理时,需要使用广义模型来对语音进行识别,根据语音差异来判断所需语言,为此需要设置语音参数值并比较相似声音以确定重要差异。
- ConvConcatNet: 从 EEG 中重建 Mel 频谱的深度卷积神经网络
利用神经网络和深度卷积神经网络方法,本研究提出了一种重建脑电图中语音信号的新方法 ConvConcatNet,其中利用深度卷积神经网络和广泛的拼接操作相结合。在我们的 ConvConcatNet 模型中,重建的梅尔频谱图与目标梅尔频谱图之间 - ICMC-ASR: 2024 年 ICASSP 车载多通道自动语音识别挑战
促进驾驶场景下的语音处理和识别研究,建立在 ISCSLP 2022 举办的智能座舱语音识别挑战(ICSRC)成功的基础上,我们推出 ICASSP 2024 车载多通道自动语音识别(ICMC-ASR)挑战。该挑战收集了 100 多小时的多通道 - 语音的 PEFT: 揭示最佳部署、合并策略和集成技术
通过在不同层次中插入不同的 Parameter-Efficient Fine-Tuning 方法并采用 Differentiable Architecture Search (DARTS) 进行比较,我们研究了 PEFT 方法的最佳途径和放 - 面向效率的自监督语音表示学习方法
自我监督学习在计算机视觉、自然语言处理、生物学和语音等多个领域取得突破,然而现有方法的计算成本较高,限制了模型的部署、训练数据集的规模以及拥有大型自我监督模型的研究机构的数量。因此,需要进一步研究以解决自我监督表示学习中高计算成本的问题。
- 集中力的耳语:通过编码器层优化增强口吃语音分类
近年来,在语音处理领域的进展已经引发出具有巨大潜力的尖端深度学习算法,而自动识别口吃症言语是这些研究者采用深度学习技术所致力解决的应用之一。本研究通过旨在聚焦于高效解决方案的重要贡献,解开了 Whisper 在口吃症言语类型分类上的能力,并 - 语音语言模型中上下文学习的探索
在自然语言处理领域中,GPT-3 的开发以来,上下文学习(ICL)在利用大型语言模型(LLM)方面发挥了重要作用。尽管 ICL 在 NLP 领域取得了成功,但鲜有工作探索了 ICL 在语音处理中的可能性。本研究提出了第一个探索 ICL 与语 - EMNLP同音词消歧揭示言语变换中上下文混合的模式
通过研究如何将文本模型的 ' 上下文混合 ' 适用于口语语言模型,揭示了 Transformer 模型如何通过关注句法线索来解决同音词消歧问题,并发现编码器与解码器模块在捕捉上下文依赖性任务中的不同表现。
- 自我监督的语音和语言模型是否能从人脑中提取相似的表示?
语言和语音模型在自监督学习过程中表现出与语音和语言感知过程中的脑活动的强烈一致性。本研究通过评估两个代表性的自监督学习模型 Wav2Vec2.0 和 GPT-2 的脑预测性能来直接回答这个问题。研究结果显示,两个模型都能准确预测听觉皮层中的 - 基于标签上下文的半自回归流式自动语音识别
提出了一种流式的 “半自回归” ASR 模型,通过在上一个片段中引入先前块中发出的标签作为额外上下文,使用语言模型(LM)子网络,以及引入了一种新的贪婪解码算法来解决块边界附近的插入和删除错误,提高了语音处理的准确性和响应速度。
- RoDia: 一个新的罗马尼亚方言识别语音数据集
罗马尼亚方言识别是语音处理和语言技术中的关键任务,但研究主要集中在广泛使用的语言上,缺乏针对低资源语言(如罗马尼亚语)的研究。为填补这一研究空白,我们首次引入了罗马尼亚语方言识别的 RoDia 数据集,包含来自罗马尼亚五个不同地区的样本,并 - RepCodec: 一种用于语音分词的语音表示编码器
通过学习语音编码器、编解码器和向量量化码本,RepCodec 通过语义语音标记化将语音波形转换为语义标记,从而显著提升语音理解和生成的性能。
- 关于语音到文本和大型语言模型集成的仅解码器架构
该研究介绍了 Speech-LLaMA,一种将声学信息有效地整合到基于文本的大型语言模型中的新方法,并进一步探索了仅解码器架构在语音处理任务中的应用。
- 生成式口语语言建模对嘈杂语音的编码方式:从语音学到句法的研究
本文探讨了基于生成式口语语言建模(GSLM)的语音建模潜力,介绍了其在口语和语音处理中编解码的有效性和重构实验结果。
- UnDiff: 无监督语音恢复与无条件扩散模型
本文介绍了 UnDiff,一种扩散概率模型,能够解决各种语音反问题,并可以应用于条件不同的任务,如降级反演、神经声波编解码和语音来源分离等。首先,我们比较了不同的神经架构和预处理方法来解决无条件波形生成的难题,并通过最新的扩散模型后处理技术 - 基于多任务预训练和迁移学习的简单而有效的语言代码切换识别
本文研究如何使用深度学习方法提高混合语言识别的准确性,提出了包括使用 Residual CNN+GRU 模型,以及使用自动语音识别(ASR)作为辅助任务的多任务预训练方法等两种有效方法,并且通过使用单语语料库以及数据上采样等方法来创造真正的 - MiniSUPERB:自监督语音模型轻量级基准测试
本研究提出了 MiniSUPERB,该基准可以有效评估自监督语音模型的能力,同时极大地降低了计算成本。