AIx 速度:利用语音识别模型的听力理解进行播放速度优化
本文通过系统评估六种语音识别器的性能并提出了两种方法用于流式语音识别,并提出了新的指标用于评估增量识别。研究发现,本地识别器通常更快,需要更新的次数较少,并且 Meta 的 Wav2Vec 模型是最快的,Mozilla 的 DeepSpeech 模型在其预测中最稳定。
Feb, 2023
通过使用基于大型语言模型的用户界面,以高度缩写的形式进行文本输入,提高了使用 AAC 设备的运动受限用户的文本输入速度。对于那些需要眼球追踪键盘等辅助和替代交流设备的人来说,这种方法可以节省大量的操作,实现更快的文本输入速度。
Dec, 2023
通过整合悄悄话作为感知模块和 LLaMA 作为推理模块,LTU-AS 机器学习模型可以同时识别和共同理解口语文本、语音相声和非语音音频事件 - 几乎可以从音频信号中感知到的一切。
Sep, 2023
本研究通过实验,评估了最先进的神经网络作为 “可计算的、优化的观察者” 在语音识别方面的表现,并发现了人类和人类机理学习中的不同之处,为听觉认知科学和工程之间建立更紧密的联系提供了启示。
Apr, 2022
本文提出了一种语音理解系统,可以将一个波形分类为结构化数据 (如意图和槽) 而不需要先将其转录为文本,同时系统具有足够小的占用空间可以运行在微型控制器和嵌入式系统上,并且具有最小延迟以逐段处理输入音频数据,并得到了优秀的性能表现 (比其他类似任务的公开研究成果要好),同时具有低延迟和更小的模型。
Nov, 2020
对书籍和有声书之间的 93 对数据集进行处理,从叙述性文本中使用语言建模预测出更好刻画人类有声阅读的语调、音量和说话速度的模型,通过与商业 TTS 系统的结果进行对比,发现预测的音调与人类朗读的相关性更高,并且预测的音量属性与人类朗读更为相似。最后,通过人类评估研究量化了人们对于语调增强型有声书朗读的偏好程度。
Oct, 2023
本研究旨在探讨在经过语料库特殊增强的情况下,对语音到文本翻译进行端到端的研究。我们不仅研究了在学习和解码期间没有源语言转录的极端情况,还研究了在训练时仅提供源语言转录的中间情况。实验结果表明,在这种设置下,可以训练出紧凑高效的端到端语音转换模型。同时,我们提供了语料库,并希望未来的研究能够挑战我们在该语料库上的语音翻译基线模型。
Feb, 2018
本文研究了口语理解系统的端到端学习方法,能够直接从音频特征中推断语义意义,而不需要中间文本表示。研究表明,该模型能够获得合理好的结果,并能直接从音频特征中捕捉语义注意力。
Feb, 2018
本研究探讨了计算机辅助口译工具的系统延迟对译员的认知影响,结果表明译员可以在 3 秒的延迟下进行同时口译,这一结果高于目前可用人工智能技术的典型延迟并为研究更高延迟的基于语境的语言模型提供了前提。
Jan, 2022