关于使用注意力机制分隔单词的难度
这篇研究是对注意力词分割的首次尝试,通过从语音信号中直接进行词分割,最终目标是在低资源的口头语言中自动识别词汇单位。该方法假定在UL语言中的记录与资源充足的语言中的翻译相配对。使用声学单元发现(AUD)将语音转换为伪音段序列,然后使用神经机器翻译模型产生的神经软对齐来分割语音。该研究使用班图语Mboshi作为实际的UL,并与单语和双语基线进行比较,说明了注意力词分割在语言记录方面的潜力。
Jun, 2018
本篇论文介绍了一种序列标注框架,并将其应用于具有不同书写系统和类型特征的多种语言的单词分割,结果表明,单词分割的准确性与单词边界标记正相关并与非分割术语数量负相关。在此基础上,设计了一套小的语言特定设置,并基于Universal Dependencies数据集进行广泛评估,结果表明该模型在所有UD语言上获得了最先进的精度,在中文、日语、阿拉伯语和希伯来语等难以划分的语言上表现显著优于以前的工作。
Jul, 2018
提出了一种分段神经语言模型,它将神经网络的概括能力与发现在未分段的字符序列中存在的类似单词的单元的能力相结合。在视觉上下文的作用下,此模型不仅可以发现单词的含义,还可以学习单词如何组成句子,并提高其预测准确性。
Nov, 2018
本论文系统比较了不同输入单元(字符、音素、词、词部分)对基于物理词或物理词段的语言模型的影响,并使用三个语音调整的黑盒NLP心理语言学基准(pWUGGY、pBLIMP、pSIMI)在词汇、句法和语义层面上探测网络中的语言知识。研究发现,边界信息的缺失会在不同的任务中导致 2%到28%不等的相对性能损失。同时,本论文还表明,自动找到的边界信息可以替代人工标注的边界信息,并且即使在两个任务中表现合理的分词算法也能给三个任务中的两个任务带来性能提升,而不需要边界信息的基本字符/音素模型。
Oct, 2022
研究利用混合声学和语言信息的方法改善了自动语音识别中过分依赖声学特征而出现的分割问题,在基准测试中平均提高了9.8%的分割-F0.5分数,该方法适用于多种语言,可显著提高机器翻译BLEU得分约1.05个点。
Oct, 2022
本研究提出了一种在跨领域和低资源情况下提高中文分词性能的方法,即从语音中的停顿中挖掘自然标注数据来训练CWS模型,并证明该方法能够显著提高CWS的性能。
Oct, 2022
通过将整个句子作为输入,我们将形态素分割任务重新定义为序列到序列问题,结果显示多语种模型在性能上优于单语种模型,尽管没有超过最先进性能,但与高资源语言相比展现出了可比较的效果,同时揭示了在低资源语言情境下的限制。
Mar, 2024