May, 2023

语言模型词嵌入空间中的词汇文体特征表达

TL;DR本研究发现,通过预训练语言模型(LMs)建立的表征空间,不仅编码了单词及其关系等抽象语义概念,也能够识别如复杂性、正式程度和象征性等字词风格,以及使用在小数量文本中产生的矢量表征。此外,本文还对这些表征空间的词级与短语级特征进行了分析,并表明无论静态嵌入还是上下文化 LMs,都可以在对不同长度的文本进行字符化时得到更高的准确度。