Oct, 2022

单词边界对于无监督语言学习是否有用?

TL;DR本论文系统比较了不同输入单元(字符、音素、词、词部分)对基于物理词或物理词段的语言模型的影响,并使用三个语音调整的黑盒 NLP 心理语言学基准(pWUGGY、pBLIMP、pSIMI)在词汇、句法和语义层面上探测网络中的语言知识。研究发现,边界信息的缺失会在不同的任务中导致 2%到 28%不等的相对性能损失。同时,本论文还表明,自动找到的边界信息可以替代人工标注的边界信息,并且即使在两个任务中表现合理的分词算法也能给三个任务中的两个任务带来性能提升,而不需要边界信息的基本字符 / 音素模型。