ACLFeb, 2024
词切分对上下文化词表示的语义内容的影响
The Impact of Word Splitting on the Semantic Content of Contextualized Word Representations
Aina Garí Soler, Matthieu Labeau, Chloé Clavel
TL;DR从语言模型中获取上下文化的单词表示时,需要决定如何获得那些被分割成子单词的未登录词(OOV)的表示。本文通过在涉及 OOV 词的语义相似性任务中对不同模型的嵌入进行内部评估,揭示了包括有趣发现在内的结论,即被分割的词的表示质量通常较差,但并非总是如此。然而,必须谨慎解释它们的相似性值。