Siyan Li, Ashwin Paranjape, Christopher D. Manning
TL;DR本文的研究目的是为了提高口头对话系统的自然度,通过一些预训练模型和特征,预测对话系统主动发起回合的时间点,并在 Switchboard Corpus 上实现了更好的性能表现。
Abstract
Current spoken dialogue systems initiate their turns after a long period of
silence (700-1000ms), which leads to little real-time feedback, sluggish
responses, and an overall stilted conversational flow. Humans typically respond
within 200ms and successfully predicting initiation point
本文研究发现,使用不同数量的文本数据进行训练和 fine-tune transformer model 可以降低自动语音识别(ASR)的 word error rate,其中 lexicon 对于改善 ASR 性能没有多大作用,而使用必要量的文本数据可以通过利用自然语言处理技术使自动语音识别接近人类的水平。