AIx 速度：利用语音识别模型的听力理解进行播放速度优化

Mar, 2024

AIx 速度：利用语音识别模型的听力理解进行播放速度优化

AIx Speed: Playback Speed Optimization Using Listening Comprehension of Speech Recognition Models

Kazuki Kawamura, Jun Rekimoto

TL;DR通过自动调整播放速度，根据用户的状态和内容类型来实现对时间序列内容的更高效理解，提出了一个新的系统，通过在非常小的音素单位上发音，确保听到的语音具有智能性。通过评估实验，与固定快速播放的语音进行对比，验证了提出方法生成的语音更易听。

Abstract

Since humans can listen to audio and watch videos at faster speeds than actually observed, we often listen to or watch these pieces of content at higher playback speeds to increase the time efficiency of content comprehension. To further utilize this capability, systems that automatically adjust the →

audio comprehension playback speed time-series content speech intelligibility evaluation experiment

发现论文，激发创造

评估自动语音识别在增量式场景中的性能

本文通过系统评估六种语音识别器的性能并提出了两种方法用于流式语音识别，并提出了新的指标用于评估增量识别。研究发现，本地识别器通常更快，需要更新的次数较少，并且 Meta 的 Wav2Vec 模型是最快的，Mozilla 的 DeepSpeech 模型在其预测中最稳定。

Feb, 2023

利用大型语言模型加速重度运动受限用户通信

通过使用基于大型语言模型的用户界面，以高度缩写的形式进行文本输入，提高了使用 AAC 设备的运动受限用户的文本输入速度。对于那些需要眼球追踪键盘等辅助和替代交流设备的人来说，这种方法可以节省大量的操作，实现更快的文本输入速度。

Dec, 2023

语音与文本联合理解

通过整合悄悄话作为感知模块和 LLaMA 作为推理模块，LTU-AS 机器学习模型可以同时识别和共同理解口语文本、语音相声和非语音音频事件 - 几乎可以从音频信号中感知到的一切。

Sep, 2023

神经网络捕捉类人语音识别的成功与关键失败

本研究通过实验，评估了最先进的神经网络作为 “可计算的、优化的观察者” 在语音识别方面的表现，并发现了人类和人类机理学习中的不同之处，为听觉认知科学和工程之间建立更紧密的联系提供了启示。

Apr, 2022

低延迟无 ASR 端到端口语理解系统

本文提出了一种语音理解系统，可以将一个波形分类为结构化数据 (如意图和槽) 而不需要先将其转录为文本，同时系统具有足够小的占用空间可以运行在微型控制器和嵌入式系统上，并且具有最小延迟以逐段处理输入音频数据，并得到了优秀的性能表现 (比其他类似任务的公开研究成果要好)，同时具有低延迟和更小的模型。

Nov, 2020

有声书的韵律分析

对书籍和有声书之间的 93 对数据集进行处理，从叙述性文本中使用语言建模预测出更好刻画人类有声阅读的语调、音量和说话速度的模型，通过与商业 TTS 系统的结果进行对比，发现预测的音调与人类朗读的相关性更高，并且预测的音量属性与人类朗读更为相似。最后，通过人类评估研究量化了人们对于语调增强型有声书朗读的偏好程度。

Oct, 2023

有声读物端到端自动语音翻译

本研究旨在探讨在经过语料库特殊增强的情况下，对语音到文本翻译进行端到端的研究。我们不仅研究了在学习和解码期间没有源语言转录的极端情况，还研究了在训练时仅提供源语言转录的中间情况。实验结果表明，在这种设置下，可以训练出紧凑高效的端到端语音转换模型。同时，我们提供了语料库，并希望未来的研究能够挑战我们在该语料库上的语音翻译基线模型。

Feb, 2018

朝向端到端口语理解

本文研究了口语理解系统的端到端学习方法，能够直接从音频特征中推断语义意义，而不需要中间文本表示。研究表明，该模型能够获得合理好的结果，并能直接从音频特征中捕捉语义注意力。

Feb, 2018

定义 AI 增强的 CAI 工具的最大可接受延迟

本研究探讨了计算机辅助口译工具的系统延迟对译员的认知影响，结果表明译员可以在 3 秒的延迟下进行同时口译，这一结果高于目前可用人工智能技术的典型延迟并为研究更高延迟的基于语境的语言模型提供了前提。

Jan, 2022

大规模自动有声书制作

开发了一个系统，利用神经文本转语音技术从在线电子书中自动生成高质量的有声读物，并允许用户自定义朗读速度、风格、情感语调，并使用少量样本音频匹配所需的声音。

Sep, 2023