朝向交互式口述

ACLJul, 2023

Toward Interactive Dictation

Belinda Z. Li, Jason Eisner, Adam Pauls, Sam Thomson

TL;DR语音输入越来越重要。我们研究了允许用户使用开放式自然语言中断他们的语音输入以实现编辑的可行性。我们引入了一个新的任务和数据集，TERTiUS，来实验这样的系统。通过使用大型预训练语言模型预测编辑后的文本或预测一个小型文本编辑程序，我们展示了模型准确性和延迟之间的自然权衡。

Abstract

voice dictation is an increasingly important text input modality. Existing systems that allow both dictation and editing-by-voice restrict their command language to flat templates invoked by trigger words. In thi

voice dictation editing-by-voice command language large pre-trained language models latency

发现论文，激发创造

指令式文本编辑

本研究通过提出一种交互式文本生成设置，在其中用户通过向系统发出编辑现有文本的命令与系统进行交互，来解决神经文本生成中一次生成的局限性，并介绍了一种新的文本编辑任务。通过使用 Wikipedia 中的单句编辑构成了一个名为 WikiDocEdits 的数据集，使用基于 transformer 的模型在其中进行训练以提高其自动产生的成果和用户评估结果。在此基础上，本研究分别从经验和定性分析方面展示了该模型的性能表现。

Oct, 2020

基于部分推理和双向融合的文本语音编辑系统

本文介绍了一种名为 EditSpeech 的语音编辑系统的设计、实现和评估，该系统允许用户对给定的语音进行单词的删除、插入和替换，同时保持原始语音质量和自然度不受影响。EditSpeech 是基于神经文本到语音（NTTS）综合框架开发的，使用了部分推理和双向融合技术，有利于有效地吸收与编辑区域相关的上下文信息。在英语和汉语的多说话人场景下，EditSpeech 系统进行了开发和评估。客观和主观评估表明，EditSpeech 在低频谱变形和优选语音质量方面优于几种基线系统。此外，网络上可以找到此文的音频样例。

Jul, 2021

移动设备上的个性化语音识别

本文介绍了一种大词汇量语音识别系统，其特点是准确、延迟低，同时其内存和计算资源占用不大，可以在 Nexus 5 Android 智能手机上以快于实时的速度运行。使用一种量化的 LSTM 音频模型和 CTC 训练直接预测音素目标，进一步使用基于 SVD 的压缩方案进一步减小内存占用，同时利用贝叶斯插值构建单一的语言模型，在植入词汇项进入解码器图表并实时更改语言模型偏差的情况下正确执行设备特定的信息。其最终取得的效果是在开放式口述任务中 13.5% 的单词错误率，而以运行速度优于实时的为媒介获得更优秀的结果。

Mar, 2016

语音感知对话系统技术挑战赛（DSTC11）

本文涉及针对与书面文本不同的口语输入而设计的任务型对话建模，以解决自动语音识别系统所引入的误差，并针对多轮对话建立了一个公共语料库，研究各种形式的语音输出的性能差距，并给出了初步分析。

Dec, 2022

在土著社区实现交互式转录

我们提出了一种新的转录工作流，将口语符号检测和人工参与相结合，以及一项试验。在只有少数项已被识别的几乎零资源情景中，涉及两种濒危语言。我们展示了在转录工作初期，当可用数据数量不足以训练鲁棒 ASR 系统时，可以利用少量孤立的单词的转录来引导语音收集的转录。

Nov, 2020

自然对话语言的交替预测

本论文提出了一个基于端对端语音识别器的取向预测器，通过检测用户何时停顿思考或讲完话来联合优化 ASR 任务和取向预测任务，以更好地建模对话交互。测试集表明，该方法在识别包含四类语言障碍的会话句子时，具有 97% 以上的准确率和 100 毫秒的延迟。

Aug, 2022

将实时互动会话建模为定时记录的转录

使用预训练的纯文本语言模型，通过建模定时记录的转录文本并使用因果拒绝采样进行解码，我们提出了一种简单但通用的方法来模拟实时互动对话。我们通过两个案例研究（即即时通讯对话和口语交流）展示了该方法的潜力，这些案例研究需要分别以约 30 tok/s 和 20 tok/s 的速率生成文本以保持实时互动。这些功能可以使用相对较少的数据添加到语言模型中，并在商品硬件上运行。

May, 2024

文本提示下的语音属性编辑

该论文提出了一个新颖的任务：在文本提示下进行声音特性编辑，目标是根据文本提示中描述的动作对声音特性进行相对修改。为了解决这个任务，提出了一种名为 VoxEditor 的端到端生成模型，其中设计了一个 Residual Memory（ResMem）块来有效地映射声音特性和这些描述符到共享的特征空间。此外，ResMem 块通过声音特性程度预测（VADP）块进行增强，以将声音特性与相应的描述符对齐，解决了由于声音特性的非定量描述而导致文本提示不精确的问题。我们还建立了开源的 VCTK-RVA 数据集，该数据集通过手动注释详细描述了不同说话人之间的声音特性差异。大量实验证明了我们所提出的方法在客观和主观指标上的有效性和泛化能力。数据集和音频样本可在网站上获得。

Apr, 2024

适应口语对话的基于文本的对话状态追踪器

本文描述了我们在 DSTC11 中参与的具有极大成功的模型的工程努力，该模型由三个主要模块组成：(1) 自动语音识别误差校正，(2) 基于文本的对话系统用于估计插槽和值，(3) 后处理用于恢复估计的插槽值的错误。我们的实验证明了对于口语对话语料库，使用明确的自动语音识别误差校正模块、后处理和数据增强对于调整基于文本的对话状态跟踪器至关重要。

Aug, 2023

语音助手的追问建议通过语音提示

通过使用序列到序列的转换器，我们研究了语音助手的采用、声控搜索和查询建议等相关主题，并提供了一种有效的方法来生成紧凑且自然的语音暗示。

Oct, 2023