Oct, 2022

语音中的词边界挖掘作为自然标注的词分割数据

TL;DR本研究提出了一种在跨领域和低资源情况下提高中文分词性能的方法,即从语音中的停顿中挖掘自然标注数据来训练 CWS 模型,并证明该方法能够显著提高 CWS 的性能。