ACLFeb, 2024

词切分对上下文化词表示的语义内容的影响

TL;DR从语言模型中获取上下文化的单词表示时,需要决定如何获得那些被分割成子单词的未登录词(OOV)的表示。本文通过在涉及 OOV 词的语义相似性任务中对不同模型的嵌入进行内部评估,揭示了包括有趣发现在内的结论,即被分割的词的表示质量通常较差,但并非总是如此。然而,必须谨慎解释它们的相似性值。