预测口语对话代理的启动点

Aug, 2022

When can I Speak? Predicting initiation points for spoken dialogue agents

Siyan Li, Ashwin Paranjape, Christopher D. Manning

TL;DR本文的研究目的是为了提高口头对话系统的自然度，通过一些预训练模型和特征，预测对话系统主动发起回合的时间点，并在 Switchboard Corpus 上实现了更好的性能表现。

Abstract

Current spoken dialogue systems initiate their turns after a long period of silence (700-1000ms), which leads to little real-time feedback, sluggish responses, and an overall stilted conversational flow. Humans typically respond within 200ms and successfully predicting initiation point

spoken dialogue systems prosodic features speech representation model language model switchboard corpus

发现论文，激发创造

口语化头像系统的人类相应延迟对话回合

通过分析谷歌自然问答数据库，本文展示了 GPT-4 可在超过 60％的时间内从问题末尾的遗漏词语有效填补丢失的上下文，并探讨了这种信息损失对发展中的角色模型质量的影响，同时提出了使用简单分类器来确定是否需要填充短语以满足人类对话时间限制的问题是否语义完整。

Apr, 2024

时间瓶颈：为什么定时和重叠对于对话界面、语音识别和对话系统至关重要

对话系统中的定时关键，6 种语言的自然对话数据的词错误率仍然糟糕，重叠问题是一个关键挑战，对话词语的识别受到影响，进而对下游意图识别产生严重后果。

Jul, 2023

自然对话语言的交替预测

本论文提出了一个基于端对端语音识别器的取向预测器，通过检测用户何时停顿思考或讲完话来联合优化 ASR 任务和取向预测任务，以更好地建模对话交互。测试集表明，该方法在识别包含四类语言障碍的会话句子时，具有 97% 以上的准确率和 100 毫秒的延迟。

Aug, 2022

将实时互动会话建模为定时记录的转录

使用预训练的纯文本语言模型，通过建模定时记录的转录文本并使用因果拒绝采样进行解码，我们提出了一种简单但通用的方法来模拟实时互动对话。我们通过两个案例研究（即即时通讯对话和口语交流）展示了该方法的潜力，这些案例研究需要分别以约 30 tok/s 和 20 tok/s 的速率生成文本以保持实时互动。这些功能可以使用相对较少的数据添加到语言模型中，并在商品硬件上运行。

May, 2024

使用预训练语言模型的时长感知暂停插入多说话人文本转语音

本文提出一种基于预训练语言模型的更加高效的暂停插入框架，运用双向变压器编码器表示来注入演讲者嵌入以捕捉不同演讲者的特点，并使用持续时间感知的暂停插入以获得更自然的多人演讲，测试结果表明该模型提高了合成语音的节奏性、暂停插入的精度和召回率。

Feb, 2023

人 - 人客户支持口语对话中的实时维度识别

本论文提出一种基于双 LSTM 架构的研究，致力于人 - 人客户支持话语交互中在线实时识别来电者意图的问题，以提高用户体验，并在电信客户支持领域的数据集上进行了实验分析。

Aug, 2022

言之有物：使用暂停标记训练语言模型

使用一个可学习的 “暂停” 标记和推迟提取模型输出的方法，我们在语言模型上执行训练和推理，并观察到模型在预训练和微调过程中实现了推理时间延迟的增益，这对各种推理、问答和基本理解任务都有积极的影响，进一步将延迟下一个标记预测的方法应用于各种应用场景可能引发更多概念性和实践性的未来研究问题。

Oct, 2023

利用停顿信息提高实体识别的准确性

本文阐述语言学中名词周围的语音停顿可以用于改善机器学习语言理解任务；作者的提出的一种新颖的语义嵌入模型能够用于增强浅层实体分析，结果显示此模型相比传统方法能够将误差率提高 8%。

Sep, 2021

利用支持性文本数据启动有限转录的自动语音识别系统开发

本文研究发现，使用不同数量的文本数据进行训练和 fine-tune transformer model 可以降低自动语音识别（ASR）的 word error rate，其中 lexicon 对于改善 ASR 性能没有多大作用，而使用必要量的文本数据可以通过利用自然语言处理技术使自动语音识别接近人类的水平。

Feb, 2023

利用声学语言特征和先行技术进行智能语音分段

研究利用混合声学和语言信息的方法改善了自动语音识别中过分依赖声学特征而出现的分割问题，在基准测试中平均提高了 9.8％的分割 - F0.5 分数，该方法适用于多种语言，可显著提高机器翻译 BLEU 得分约 1.05 个点。

Oct, 2022